【技术实现步骤摘要】
一种价值驱动的跨域策略泛化方法及系统
[0001]本专利技术总的来说涉及强化学习
具体而言,本专利技术涉及一种价值驱动的跨域策略泛化方法及系统。
技术介绍
[0002]现有的主动智能算法能够利用大量数据解决现实生活中的复杂任务,然而智能体局限于特定环境,存在缺乏针对变化环境的跨域泛化能力的问题。虽然人类能够基于其他任务或者其他智能体的先验知识加速自身学习,但现阶段的强化学习算法往往难以实现高差别任务之间的泛化,因此如何提高策略的泛化能力是现阶段强化学习发展中的一个重要问题。
[0003]在强化学习领域中,现有算法通常是针对一个固定的任务训练对应的最优控制策略,而当任务所在的环境或任务本身发生变化时,原有的控制策略往往无法直接适用。例如,使用强化学习算法针对四足机器人训练行走控制策略时,当机器人自身电压发生浮动或者外界环境发生演变时,旧策略往往无法在环境改变时实现机器人的控制。
[0004]针对强化学习策略的跨域自适应问题,需要智能体在给定较不受限的源域数据和有限的目标域数据的情况下训练出对应目标域的高水平策略,其中需要算法针对源域与目标域之间的动力学差异提出一定的解决手段,现有的方法包括:
[0005]基于可参数化仿真器的动力学自适应方法,当智能体所在的源域是参数化或者动力学可调时,该方法基于源域与目标域的数据来显式地调整源域仿真器的动力学参数,使其足够接近目标域动力学规则,最后在调整后的源域下训练出的策略便能够直接部署至目标域。然而该方法需要依赖参数化的仿真器,而许多复杂任务对应的仿 ...
【技术保护点】
【技术特征摘要】
1.一种价值驱动的跨域策略泛化方法,其特征在于,包括下列步骤:提供源域训练数据以及目标域训练数据:筛选源域训练数据,其中包括:提供状态动作数据对(s,a),确定源域下一时刻状态s
′
src
,并且通过目标域动力学模型确定目标域下一时刻状态集合通过价值函数网络对所述源域下一时刻状态s
′
src
以及所述目标域下一时刻状态集合进行价值评估以生成源域状态价值Q
src
以及目标域状态价值集合以及比较所述生成源域状态价值Q
src
以及目标域状态价值集合筛选出状态价值差距小于阈值∈的源域训练数据;以及将筛选出的源域训练数据以及目标域训练数据输入智能体中进行训练。2.根据权利要求1所述的价值驱动的跨域策略泛化方法,其特征在于,还包括对目标域动力学模型进行训练,其中包括:确定目标域训练数据,所述目标域训练数据包括状态转移元组(s,a,r,s
′
),其中s表示状态、a表示动作、r表示奖励、s
′
表示下一个时刻状态;向所述目标域动力学模型输入(s,a),并且由所述目标域动力学模型输出预测(r,s
′
)的高斯分布;以及将真实的(r,s
′
)作为标签使用最大化似然估计训练所述目标域动力学模型。3.根据权利要求1所述的价值驱动的跨域策略泛化方法,其特征在于,还包括对价值函数网络进行训练,其中使用演说
‑
评论家算法进行值函数学习,并且通过贝尔曼算子进行迭代;其中价值函数网络的离线数据集中存储的经验为状态转移元组(s,a,r,s
′
)的集合,其中s表示状态、a表示动作、r表示奖励、s
′
表示下一个时刻状态;贝尔曼算子将值函数Q(s,a)的学习目标设定为下式:的学习目标设定为下式:其中a
′
表示下一时刻的贪心动作;贝尔曼损失L表示为下式L=(Q(s,a)
‑
y)2,并且通过最小化损失函数可以进行值函数的训练。4.根据权利要求1所述的价值驱动的跨域策略泛化方法,其特征在于,比较所述生成源域状态价值Q
src
以及目标域状态价值集合包括下列步骤:基于目标域状态价值集合构建目标域状态价值高斯分布,表示为下式:以及确定源域状态价值Q
src
在所述目标域状态价值高斯分布中的似然估计以量化状态动作数据对(s,a)的跨域价值差距,表示为下式:其中似然估计越大表示跨域价值差距越小。5.一种价值驱动的跨域策略泛化系统...
【专利技术属性】
技术研发人员:李学龙,白辰甲,徐康,赵斌,王震,
申请(专利权)人:上海人工智能创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。