一种价值驱动的跨域策略泛化方法及系统技术方案

技术编号:38073276 阅读:16 留言:0更新日期:2023-07-06 08:41
本发明专利技术总的来说涉及强化学习技术领域,提出一种价值驱动的跨域策略泛化方法及系统。该方法包括:提供源域训练数据以及目标域训练数据;基于价值驱动筛选源域训练数据;以及将筛选出的源域训练数据以及目标域训练数据输入智能体中进行训练。本发明专利技术在源域自身不需要改变的同时,算法不再专注数据的动力学一致性,而是从价值的跨域一致性对源域数据进行筛选,能够有效提高强化学习中策略的泛化能力,进而可以有效节约运算资源。可以有效节约运算资源。可以有效节约运算资源。

【技术实现步骤摘要】
一种价值驱动的跨域策略泛化方法及系统


[0001]本专利技术总的来说涉及强化学习
具体而言,本专利技术涉及一种价值驱动的跨域策略泛化方法及系统。

技术介绍

[0002]现有的主动智能算法能够利用大量数据解决现实生活中的复杂任务,然而智能体局限于特定环境,存在缺乏针对变化环境的跨域泛化能力的问题。虽然人类能够基于其他任务或者其他智能体的先验知识加速自身学习,但现阶段的强化学习算法往往难以实现高差别任务之间的泛化,因此如何提高策略的泛化能力是现阶段强化学习发展中的一个重要问题。
[0003]在强化学习领域中,现有算法通常是针对一个固定的任务训练对应的最优控制策略,而当任务所在的环境或任务本身发生变化时,原有的控制策略往往无法直接适用。例如,使用强化学习算法针对四足机器人训练行走控制策略时,当机器人自身电压发生浮动或者外界环境发生演变时,旧策略往往无法在环境改变时实现机器人的控制。
[0004]针对强化学习策略的跨域自适应问题,需要智能体在给定较不受限的源域数据和有限的目标域数据的情况下训练出对应目标域的高水平策略,其中需要算法针对源域与目标域之间的动力学差异提出一定的解决手段,现有的方法包括:
[0005]基于可参数化仿真器的动力学自适应方法,当智能体所在的源域是参数化或者动力学可调时,该方法基于源域与目标域的数据来显式地调整源域仿真器的动力学参数,使其足够接近目标域动力学规则,最后在调整后的源域下训练出的策略便能够直接部署至目标域。然而该方法需要依赖参数化的仿真器,而许多复杂任务对应的仿真器中的物理属性是不可调节的。当对应的目标域为现实世界时,目标域相对于源域的动力学差异可能是来自于多样的原因(例如机器人外界环境的变化),此时若源域的仿真器无法模拟相应的变化,该方法将无法使源域的动力学接近目标域动力学,从而无法训练出可泛化策略。
[0006]基于动作转换的动力学自适应方法,该方法基于源域和目标域的数据拟合对应的逆动力学模型与动力学模型。在智能体与源域交互并训练时,基于所训练的动力学模型来矫正策略执行的动作,从而使得矫正后动作在目标域以及原动作在源域保持动力学一致性,最终实现策略的跨域自适应。然而该方法需要拟合复杂的动力学模型,但对于复杂机器人系统而言,动力学方程非常复杂,神经网络需要大量样本进行训练才能拟合动力学方程,并且需要与环境交互获得大量的样本。在有限环境交互的限制下,往往无法获得充足的样本来拟合动力学模型。
[0007]基于奖励补偿的动力学自适应方法,该方法通过训练域分类器来对源域收集数据的奖励数值进行动力学补偿。具体来说,当相应的数据接近目标域下的动力学规则时算法为智能体提供额外的正奖励,当数据不符合目标域的动力学规则时算法为智能体提供负奖励作为惩罚,其中相应的奖励补偿的数值由域分类器的似然估计决定。然而该方法需要假设存在至少一个目标域高水平策略且该策略在源域同样有着较好表现,当源域和目标域不
满足上述假设时,该方法会基于域分类器对所有源域数据进行惩罚,从而阻碍策略对目标域的探索,导致算法无法收敛到高水平策略。

技术实现思路

[0008]为至少部分解决现有技术中的上述问题,本专利技术提出一种价值驱动的跨域策略泛化方法,包括下列步骤:
[0009]提供源域训练数据以及目标域训练数据:
[0010]筛选源域训练数据,其中包括:
[0011]提供状态动作数据对(s,a),确定源域下一时刻状态s

src
,并且通过目标域动力学模型确定目标域下一时刻状态集合
[0012]通过价值函数网络对所述源域下一时刻状态s

src
以及所述目标域下一时刻状态集合进行价值评估以生成源域状态价值Q
src
以及目标域状态价值集合以及
[0013]比较所述生成源域状态价值Q
src
以及目标域状态价值集合筛选出状态价值差距小于阈值∈的源域训练数据;以及
[0014]将筛选出的源域训练数据以及目标域训练数据输入智能体中进行训练。
[0015]在本专利技术一个实施例中规定,所述价值驱动的跨域策略泛化方法还包括对目标域动力学模型进行训练,其中包括:
[0016]确定目标域训练数据,所述目标域训练数据包括状态转移元组(s,a,r,s

),其中s表示状态、a表示动作、r表示奖励、s

表示下一个时刻状态;
[0017]向所述目标域动力学模型输入(s,a),并且由所述目标域动力学模型输出预测(r,s

)的高斯分布;以及
[0018]将真实的(r,s

)作为标签使用最大化似然估计训练所述目标域动力学模型。
[0019]在本专利技术一个实施例中规定,所述价值驱动的跨域策略泛化方法,还包括对价值函数网络进行训练,其中使用演说

评论家算法进行值函数学习,并且通过贝尔曼算子进行迭代;
[0020]其中价值函数网络的离线数据集中存储的经验为状态转移元组(s,a,r,s

)的集合,其中s表示状态、a表示动作、r表示奖励、s

表示下一个时刻状态;贝尔曼算子将值函数Q(s,a)的学习目标设定为下式:(s,a)的学习目标设定为下式:其中a

表示下一时刻的贪心动作;贝尔曼损失L表示为下式L=(Q(s,a)

y)2,并且通过最小化损失函数可以进行值函数的训练。
[0021]在本专利技术一个实施例中规定,比较所述生成源域状态价值Q
src
以及目标域状态价值集合包括下列步骤:
[0022]基于目标域状态价值集合构建目标域状态价值高斯分布,表示为下式:
[0023]以及
[0024]确定源域状态价值Q
src
在所述目标域状态价值高斯分布中的似然估计以量化状态
动作数据对(s,a)的跨域价值差距,表示为下式:
[0025][0026]其中似然估计越大表示跨域价值差距越小。
[0027]本专利技术还提出一种价值驱动的跨域策略泛化系统,其特征在于,包括:
[0028]数据提供模块,其被配置为提供源域训练数据以及目标域训练数据;
[0029]数据筛选模块,其被配置为执行下列动作:
[0030]提供状态动作数据对(s,a),确定源域下一时刻状态s

src
,并且
[0031]通过目标域动力学模型确定目标域下一时刻状态集合
[0032]通过价值函数网络对所述源域下一时刻状态s

src
以及所述目标域下一时刻状态集合进行价值评估以生成源域状态价值Q
src
以及目标域状态价值集合以及
[0033]比较所述生成源域状态价值Qsrc以及目标域状态价值集合筛选出状态价值差距小于阈值∈的源域训练数据;以及
[0034本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种价值驱动的跨域策略泛化方法,其特征在于,包括下列步骤:提供源域训练数据以及目标域训练数据:筛选源域训练数据,其中包括:提供状态动作数据对(s,a),确定源域下一时刻状态s

src
,并且通过目标域动力学模型确定目标域下一时刻状态集合通过价值函数网络对所述源域下一时刻状态s

src
以及所述目标域下一时刻状态集合进行价值评估以生成源域状态价值Q
src
以及目标域状态价值集合以及比较所述生成源域状态价值Q
src
以及目标域状态价值集合筛选出状态价值差距小于阈值∈的源域训练数据;以及将筛选出的源域训练数据以及目标域训练数据输入智能体中进行训练。2.根据权利要求1所述的价值驱动的跨域策略泛化方法,其特征在于,还包括对目标域动力学模型进行训练,其中包括:确定目标域训练数据,所述目标域训练数据包括状态转移元组(s,a,r,s

),其中s表示状态、a表示动作、r表示奖励、s

表示下一个时刻状态;向所述目标域动力学模型输入(s,a),并且由所述目标域动力学模型输出预测(r,s

)的高斯分布;以及将真实的(r,s

)作为标签使用最大化似然估计训练所述目标域动力学模型。3.根据权利要求1所述的价值驱动的跨域策略泛化方法,其特征在于,还包括对价值函数网络进行训练,其中使用演说

评论家算法进行值函数学习,并且通过贝尔曼算子进行迭代;其中价值函数网络的离线数据集中存储的经验为状态转移元组(s,a,r,s

)的集合,其中s表示状态、a表示动作、r表示奖励、s

表示下一个时刻状态;贝尔曼算子将值函数Q(s,a)的学习目标设定为下式:的学习目标设定为下式:其中a

表示下一时刻的贪心动作;贝尔曼损失L表示为下式L=(Q(s,a)

y)2,并且通过最小化损失函数可以进行值函数的训练。4.根据权利要求1所述的价值驱动的跨域策略泛化方法,其特征在于,比较所述生成源域状态价值Q
src
以及目标域状态价值集合包括下列步骤:基于目标域状态价值集合构建目标域状态价值高斯分布,表示为下式:以及确定源域状态价值Q
src
在所述目标域状态价值高斯分布中的似然估计以量化状态动作数据对(s,a)的跨域价值差距,表示为下式:其中似然估计越大表示跨域价值差距越小。5.一种价值驱动的跨域策略泛化系统...

【专利技术属性】
技术研发人员:李学龙白辰甲徐康赵斌王震
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1