基于一致性约束建模的强化学习机器人控制方法及系统技术方案

技术编号:30319198 阅读:19 留言:0更新日期:2021-10-09 23:24
本发明专利技术涉及一种基于一致性约束建模的强化学习机器人控制方法及系统,其包括:初始化环境和各网络参数;利用与真实环境的交互数据训练环境模型;利用策略网络π

【技术实现步骤摘要】
基于一致性约束建模的强化学习机器人控制方法及系统


[0001]本专利技术涉及一种机器人控制领域,特别是关于一种基于一致性约束建模的强化学习机器人控制方法及系统。

技术介绍

[0002]近年来,深度学习在图像处理、语音合成、自然语言处理等领域取得一系列重大突破。深度强化学习是将深度学习的智能感知能力与强化学习的决策能力相结合,直接通过对高维感知输入的学习最终实现智能体的自主行为控制,描述的是智能体为实现任务而连续作出决策控制的过程。同时,强化学习已经在游戏对抗、机器人控制等领域取得了突破性进展。
[0003]深度强化学习具有一定的自主学习能力,无需给定先验知识,只需与环境进行不断交互,最终通过训练找到适合当前状态的最优策略,进而获得整个决策过程的最大累积奖励回报。根据智能体对交互环境信息的利用方法,强化学习可分为无模型强化学习和模型化强化学习两大类。无模型强化学习方法是智能体不断探索环境,不断试错,通常需要大量训练样本及训练时间,才能保证智能体满足一定要求。模型化强化学习方法首先需要对环境建模,得到环境模型后,此类方法无需与真实环境交互,可直接利用学得的环境模型生成所需训练样本进行策略学习,从而在一定程度上缓解样本利用率低及学习效率低的问题。另外,如果所学得的环境模型足够精确,智能体就可根据该模型在其从未访问过的区域进行策略搜索。然而,学得的环境模型与真实环境间往往存在模型误差,难以保证算法的最优解渐近收敛。
[0004]在模型化强化学习的机器人控制领域,相关现有技术中的基于模型相关强化学习的仿人机器人步态控制方法,其使用强化学习来对仿人机器人行走过程中的步态进行控制,从而使仿人机器人的行走控制能通过与环境交互来进行自主调节,使仿人机器人在前后方向上保持稳定。但是该技术存在以下缺陷:(1)现有技术根据当前状态和值函数,使用梯度下降法求解出最优的控制动作,会存在策略退化问题,即值函数估计准确,但通过值函数得到的策略仍然不是最优。(2)现有技术采用单一的高斯模型,对环境建模能力弱,存在较大建模误差。(3)现有技术采用原始的Dyna

Q强化学习方法,算法的渐进性能低,且数据利用效率低。

技术实现思路

[0005]针对上述问题,本专利技术的目的是提供一种基于一致性约束建模的强化学习机器人控制方法及系统,其能减少对建模的误差,增加环境建模的准确性和鲁棒性,提高稳定性。
[0006]为实现上述目的,本专利技术采取以下技术方案:一种基于一致性约束建模的强化学习机器人控制方法,其包括:步骤1、初始化环境和各网络参数;步骤2、利用与真实环境的交互数据训练环境模型;步骤3、利用策略网络π
φ
与训练后的环境模型交互,将交互数据存放在数据存放器D
model
中;步骤4、根据环境模型,采用Soft Actor

Critic方法进行策略训练;
步骤5、重复执行步骤2至步骤4,直至收敛。
[0007]进一步,所述步骤1中,初始化构建策略网络π
φ
,Q函数网络Q
ψ
,Q

target函数网络及环境模型以及构建真实环境的数据存放器D
env

φ和预测环境模型的数据存放器D
model

φ。
[0008]进一步,所述步骤2中,环境模型的训练方法包括以下步骤:
[0009]步骤21、利用策略π
φ
与真实环境交互,将交互数据存放在真实环境的数据存放器D
env

[0010]步骤22、从真实环境的数据存放器D
env
中自助采样N批数据{D1,D2,

,D
N
},并在N批数据中随机采样一批数据{D
s
};
[0011]步骤23、根据步骤22中的自助采样数据和随机采样数据,通过极大似然和一致性约束训练环境模型。
[0012]进一步,所述步骤23中,在N批数据{D1,D2,

,D
N
}上通过极大似然方法分布训练N个环境模型同时,将随机采样数据{D
s
}复制N份,通过一致性约束训练N个环境模型。
[0013]进一步,所述N个环境模型的更新方式为:
[0014][0015]式中,ω
L
表示更新步长的调节因子,表示对L
total
的θ求梯度,L
total
为整体的环境模型训练损失函数。
[0016]进一步,所述整体的环境模型训练损失函数的获取方法为:
[0017]步骤231、获取极大似然的损失函数L
ML

[0018]步骤232、获取一致性约束的损失函数L
KL
采用KL距离作为度量;
[0019]步骤233、根据极大似然和一致性约束的损失函数得到整体的环境模型训练损失函数L
total
为:
[0020]L
total
=L
ML
+λ*L
KL

[0021]式中,λ表示权重。
[0022]进一步,所述步骤4中,训练方法包括以下步骤:
[0023]步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略;
[0024]步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q

target函数网络参数。
[0025]进一步,所述步骤42中,更新方法为:
[0026][0027][0028][0029]其中,表示Q

target函数网络参数,φ表示策略网络参数,ψ表示Q网络参数,表示对J
Q
的参数ψ求梯度,表示对J
π
的参数φ求梯度,ω,ω
π
和ω
Q
分别相应的更新步长。
[0030]进一步,所述步骤5中,收敛条件为:与环境交互的次数大于预先设定的数值。
[0031]一种基于一致性约束建模的强化学习机器人控制系统,其包括:初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;所述初始化模块,用于初始化环境和各网络参数;所述环境模型训练模块,利用与真实环境的交互数据训练环境模型;所述数据交互模块,利用策略网络π
φ
与训练后的环境模型交互,将交互数据存放在数据存放器D
model
中;所述策略训练模块,根据环境模型,采用Soft Actor

Critic方法进行策略训练;所述收敛模块,重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块,直至收敛。
[0032]本专利技术由于采取以上技术方案,其具有以下优点:
[0033]1、本专利技术基于Actor

Cri本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于一致性约束建模的强化学习机器人控制方法,其特征在于,包括:步骤1、初始化环境和各网络参数;步骤2、利用与真实环境的交互数据训练环境模型;步骤3、利用策略网络π
φ
与训练后的环境模型交互,将交互数据存放在数据存放器D
model
中;步骤4、根据环境模型,采用Soft Actor

Critic方法进行策略训练;步骤5、重复执行步骤2至步骤4,直至收敛。2.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤1中,初始化构建策略网络π
φ
,Q函数网络Q
ψ
,Q

target函数网络及环境模型以及构建真实环境的数据存放器D
env

φ和预测环境模型的数据存放器D
model

φ。3.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤2中,环境模型的训练方法包括以下步骤:步骤21、利用策略π
φ
与真实环境交互,将交互数据存放在真实环境的数据存放器D
env
;步骤22、从真实环境的数据存放器D
env
中自助采样N批数据{D1,D2,...,D
N
},并在N批数据中随机采样一批数据{D
s
};步骤23、根据步骤22中的自助采样数据和随机采样数据,通过极大似然和一致性约束训练环境模型。4.如权利要求3所述强化学习机器人控制方法,其特征在于,所述步骤23中,在N批数据{D1,D2,...,D
N
}上通过极大似然方法分布训练N个环境模型同时,将随机采样数据{D
s
}复制N份,通过一致性约束训练N个环境模型。5.如权利要求4所述强化学习机器人控制方法,其特征在于,所述N个环境模型的更新方式为:式中,ω
L
表示更新步长的调节因子,表示对L
total
的θ求梯度,L
total
为整体的环境模型训练损失函数。6.如权利要...

【专利技术属性】
技术研发人员:李秀贾若楠
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1