一种价值驱动的跨域策略泛化方法及系统技术方案

技术编号:38073276 阅读:28 留言:0更新日期:2023-07-06 08:41
本发明专利技术总的来说涉及强化学习技术领域,提出一种价值驱动的跨域策略泛化方法及系统。该方法包括:提供源域训练数据以及目标域训练数据;基于价值驱动筛选源域训练数据;以及将筛选出的源域训练数据以及目标域训练数据输入智能体中进行训练。本发明专利技术在源域自身不需要改变的同时,算法不再专注数据的动力学一致性,而是从价值的跨域一致性对源域数据进行筛选,能够有效提高强化学习中策略的泛化能力,进而可以有效节约运算资源。可以有效节约运算资源。可以有效节约运算资源。

【技术实现步骤摘要】
一种价值驱动的跨域策略泛化方法及系统


[0001]本专利技术总的来说涉及强化学习
具体而言,本专利技术涉及一种价值驱动的跨域策略泛化方法及系统。

技术介绍

[0002]现有的主动智能算法能够利用大量数据解决现实生活中的复杂任务,然而智能体局限于特定环境,存在缺乏针对变化环境的跨域泛化能力的问题。虽然人类能够基于其他任务或者其他智能体的先验知识加速自身学习,但现阶段的强化学习算法往往难以实现高差别任务之间的泛化,因此如何提高策略的泛化能力是现阶段强化学习发展中的一个重要问题。
[0003]在强化学习领域中,现有算法通常是针对一个固定的任务训练对应的最优控制策略,而当任务所在的环境或任务本身发生变化时,原有的控制策略往往无法直接适用。例如,使用强化学习算法针对四足机器人训练行走控制策略时,当机器人自身电压发生浮动或者外界环境发生演变时,旧策略往往无法在环境改变时实现机器人的控制。
[0004]针对强化学习策略的跨域自适应问题,需要智能体在给定较不受限的源域数据和有限的目标域数据的情况下训练出对应目标域的高水平策略,其中需要算本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种价值驱动的跨域策略泛化方法,其特征在于,包括下列步骤:提供源域训练数据以及目标域训练数据:筛选源域训练数据,其中包括:提供状态动作数据对(s,a),确定源域下一时刻状态s

src
,并且通过目标域动力学模型确定目标域下一时刻状态集合通过价值函数网络对所述源域下一时刻状态s

src
以及所述目标域下一时刻状态集合进行价值评估以生成源域状态价值Q
src
以及目标域状态价值集合以及比较所述生成源域状态价值Q
src
以及目标域状态价值集合筛选出状态价值差距小于阈值∈的源域训练数据;以及将筛选出的源域训练数据以及目标域训练数据输入智能体中进行训练。2.根据权利要求1所述的价值驱动的跨域策略泛化方法,其特征在于,还包括对目标域动力学模型进行训练,其中包括:确定目标域训练数据,所述目标域训练数据包括状态转移元组(s,a,r,s

),其中s表示状态、a表示动作、r表示奖励、s

表示下一个时刻状态;向所述目标域动力学模型输入(s,a),并且由所述目标域动力学模型输出预测(r,s

)的高斯分布;以及将真实的(r,s

)作为标签使用最大化似然估计训练所述目标域动力学模型。3.根据权利要求1所述的价值驱动的跨域策略泛化方法,其特征在于,还包括对价值函数网络进行训练,其中使用演说

评论家算法进行值函数学习,并且通过贝尔曼算子进行迭代;其中价值函数网络的离线数据集中存储的经验为状态转移元组(s,a,r,s

)的集合,其中s表示状态、a表示动作、r表示奖励、s

表示下一个时刻状态;贝尔曼算子将值函数Q(s,a)的学习目标设定为下式:的学习目标设定为下式:其中a

表示下一时刻的贪心动作;贝尔曼损失L表示为下式L=(Q(s,a)

y)2,并且通过最小化损失函数可以进行值函数的训练。4.根据权利要求1所述的价值驱动的跨域策略泛化方法,其特征在于,比较所述生成源域状态价值Q
src
以及目标域状态价值集合包括下列步骤:基于目标域状态价值集合构建目标域状态价值高斯分布,表示为下式:以及确定源域状态价值Q
src
在所述目标域状态价值高斯分布中的似然估计以量化状态动作数据对(s,a)的跨域价值差距,表示为下式:其中似然估计越大表示跨域价值差距越小。5.一种价值驱动的跨域策略泛化系统...

【专利技术属性】
技术研发人员:李学龙白辰甲徐康赵斌王震
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1