【技术实现步骤摘要】
迁移强化学习控制方法、系统、存储介质、设备及应用
本专利技术属于机器人控制
,尤其涉及一种迁移强化学习控制方法、系统、存储介质、设备及应用。
技术介绍
目前:近期深度学习中的进展让强化学习能够应用于解决高维度的状态空间和动作空间任务。深度强化学习在以下领域也取得了较大的成功:如直接从像素中学习玩Atari游戏,AlphaGo击败了人类世界冠军等等。但是,在实际环境中将DRL方法应用于机器人控制时,智能体通常必须面对两个主要挑战:采样效率和安全性问题。首先,DRL智能体通常需要数以千万计的样本来学习最佳策略,而机器人在现实世界中收集这种规模的样本将花费数月的时间。其次,智能体通过DRL学习需要在环境中进行大规模随机采样以进行反复试验,因此在某些时刻,其行为可能会损坏机器人本身,甚至破坏周围环境中的生物。在模拟环境中进行采样比直接在现实世界中学习更快,更便宜,更安全,但是直接在现实世界中使用在模拟器中训练的策略是困难且冒险的,因为在模拟和现实之间存在差距。如何弥合这一差距引起了广泛的关注。为了解决这个问题,人们提出 ...
【技术保护点】
1.一种迁移强化学习控制方法,其特征在于,所述迁移强化学习控制方法包括:/n人的反馈网络从人的评估中进行预训练,用于在训练策略时预测人的评估;/n对使用渐进式网络迁移后的策略进行训练时,使用人的评估和反馈网络的输出作为奖励。/n
【技术特征摘要】
1.一种迁移强化学习控制方法,其特征在于,所述迁移强化学习控制方法包括:
人的反馈网络从人的评估中进行预训练,用于在训练策略时预测人的评估;
对使用渐进式网络迁移后的策略进行训练时,使用人的评估和反馈网络的输出作为奖励。
2.如权利要求1所述的迁移强化学习控制方法,其特征在于,所述迁移强化学习控制方法的交互渐进网络学习允许人类训练者首先对状态动作提供评估,由状态动作对序列{(s0,a0),...,(sn,an)}组成,从评估中训练人的反馈网络并且该网络被当作渐进式网络迁移后的策略训练中的奖励函数。
3.如权利要求1所述的迁移强化学习控制方法,其特征在于,所述迁移强化学习控制方法采用的奖励网络的损失函数是标准均方误差,给定输入和收到的人工评估反馈,希望最小化HRN损失:其中是基于对状态S采取动作A的评估而来的人类奖励,α和β用于权衡人类对于状态和动作的加权权重。
4.如权利要求1所述的迁移强化学习控制方法,其特征在于,所述迁移强化学习控制方法在更新策略之前,HRN对人的奖励预测;在人类奖励网络HRN足够好之后,将从源任务训练并修改后的策略转移到目标任务,采用渐进式网络进行学习;在将源策略迁移到目标任务之后,继续给予人工奖励,训练人工奖励函数HRN。
5.如权利要求1所述的迁移强化学习控制方法,其特征在于,所述迁移强化学习控制方法的渐进式网络中,神经网络具有L层和激活函数其中ni是第i层的神经元;渐进式网络始于单列神经网络,当切换到第二列时,第一列神经网络的参数θ(1)被冻结,第二列神经网络的参数θ(2)随机初始化,第二列的激活函数接受来自第一列和第二列神经网络的前一层输出,当泛化到K列时,总结为如下:
<...
【专利技术属性】
技术研发人员:李光亮,隽荣顺,黄杰,沙启鑫,何波,
申请(专利权)人:中国海洋大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。