基于一致性约束建模的强化学习机器人控制方法及系统技术方案

技术编号：30319198 阅读：19 留言：0更新日期：2021-10-09 23:24

本发明专利技术涉及一种基于一致性约束建模的强化学习机器人控制方法及系统，其包括：初始化环境和各网络参数；利用与真实环境的交互数据训练环境模型；利用策略网络π

全部详细技术资料下载

【技术实现步骤摘要】
基于一致性约束建模的强化学习机器人控制方法及系统

[0001]本专利技术涉及一种机器人控制领域，特别是关于一种基于一致性约束建模的强化学习机器人控制方法及系统。

技术介绍

[0002]近年来，深度学习在图像处理、语音合成、自然语言处理等领域取得一系列重大突破。深度强化学习是将深度学习的智能感知能力与强化学习的决策能力相结合，直接通过对高维感知输入的学习最终实现智能体的自主行为控制，描述的是智能体为实现任务而连续作出决策控制的过程。同时，强化学习已经在游戏对抗、机器人控制等领域取得了突破性进展。
[0003]深度强化学习具有一定的自主学习能力，无需给定先验知识，只需与环境进行不断交互，最终通过训练找到适合当前状态的最优策略，进而获得整个决策过程的最大累积奖励回报。根据智能体对交互环境信息的利用方法，强化学习可分为无模型强化学习和模型化强化学习两大类。无模型强化学习方法是智能体不断探索环境，不断试错，通常需要大量训练样本及训练时间，才能保证智能体满足一定要求。模型化强化学习方法首先需要对环境建模，得到环境模型后，此类方法无需与真实环境交互，可直接利用学得的环境模型生成所需训练样本进行策略学习，从而在一定程度上缓解样本利用率低及学习效率低的问题。另外，如果所学得的环境模型足够精确，智能体就可根据该模型在其从未访问过的区域进行策略搜索。然而，学得的环境模型与真实环境间往往存在模型误差，难以保证算法的最优解渐近收敛。
[0004]在模型化强化学习的机器人控制领域，相关现有技术中的基于模型相关强化学习的仿人机器人...

【技术保护点】

【技术特征摘要】
1.一种基于一致性约束建模的强化学习机器人控制方法，其特征在于，包括：步骤1、初始化环境和各网络参数；步骤2、利用与真实环境的交互数据训练环境模型；步骤3、利用策略网络π
φ
与训练后的环境模型交互，将交互数据存放在数据存放器D
model
中；步骤4、根据环境模型，采用Soft Actor
‑
Critic方法进行策略训练；步骤5、重复执行步骤2至步骤4，直至收敛。2.如权利要求1所述强化学习机器人控制方法，其特征在于，所述步骤1中，初始化构建策略网络π
φ
，Q函数网络Q
ψ
，Q
‑
target函数网络及环境模型以及构建真实环境的数据存放器D
env
←
φ和预测环境模型的数据存放器D
model
←
φ。3.如权利要求1所述强化学习机器人控制方法，其特征在于，所述步骤2中，环境模型的训练方法包括以下步骤：步骤21、利用策略π
φ
与真实环境交互，将交互数据存放在真实环境的数据存放器D
env
；步骤22、从真实环境的数据存放器D
env
中自助采样N批数据{D1，D2，...，D
N
}，并在N批数据中随机采样一批数据{D
s
}；步骤23、根据步骤22中的自助采样数据和随机采样数据，通过极大似然和一致性约束训练环境模型。4.如权利要求3所述强化学习机器人控制方法，其特征在于，所述步骤23中，在N批数据{D1，D2，...，D
N
}上通过极大似然方法分布训练N个环境模型同时，将随机采样数据{D
s
}复制N份，通过一致性约束训练N个环境模型。5.如权利要求4所述强化学习机器人控制方法，其特征在于，所述N个环境模型的更新方式为：式中，ω
L
表示更新步长的调节因子，表示对L
total
的θ求梯度，L
total
为整体的环境模型训练损失函数。6.如权利要...

【专利技术属性】
技术研发人员：李秀，贾若楠，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人