机器人控制策略迁移方法、装置及系统制造方法及图纸

技术编号:29102895 阅读:15 留言:0更新日期:2021-06-30 10:16
本发明专利技术提供一种机器人控制策略迁移方法、装置及系统,由于在实际状态与基于任务策略确定的参考状态的差值在预设范围外时引入了差异策略,通过任务策略与差异策略的双策略协同迁移,可以保证任务策略在实际控制系统的应用效果,使得实际控制系统对目标机器人的控制更加准确,实现待执行任务的顺利执行。实现待执行任务的顺利执行。实现待执行任务的顺利执行。

【技术实现步骤摘要】
机器人控制策略迁移方法、装置及系统


[0001]本专利技术涉及强化学习与机器人控制
,尤其涉及一种机器人控制策略迁移方法、装置及系统。

技术介绍

[0002]近年来,运用强化学习来展开机器人控制方面的相关研究已逐渐成为研究热点。然而,强化学习的核心机制在于大量样本的试错,进而训练得到一个合格的控制策略,而直接在机器人的实际控制系统进行训练则要面临硬件磨损、安全隐患、长耗时等一系列高成本、高风险、低效率的实际问题,这也迫使大量的研究都集中在仿真层面。因此,能否将仿真下训练得到的控制策略迁移至实际控制系统,成为了研究人员很自然的想法。
[0003]而事实情况是:由于仿真源域与现实目标域的不同导致了仿真到现实的差异问题,所得控制策略迁移至机器人的实际控制系统的应用效果大概率是远不及仿真层面的效果。如何解决上述差异问题,成为了研究人员的主要难点。目前,各种解决方法可分为三大类:基于系统辨识的方法、基于域自适应的方法以及基于域随机化的方法。
[0004]尽管上述三类方法在解决上述差异问题时取得了明显的效果,但如何更好地复现控制策略在实际控制系统的应用效果,还需深入研究。

技术实现思路

[0005]本专利技术提供一种机器人控制策略迁移方法、装置及系统,用以解决现有技术中存在的缺陷。
[0006]本专利技术提供一种机器人控制策略迁移方法,包括:将目标机器人的任务策略迁移至所述目标机器人的实际控制系统,并基于所述实际控制系统,确定所述目标机器人在当前时刻的实际状态;若判断获知所述实际状态与基于所述任务策略确定的参考状态的差值在预设范围外,则将所述目标机器人的差异策略迁移至所述实际控制系统,以使所述实际控制系统执行所述任务策略以及所述差异策略下的耦合动作,进而确定所述目标机器人在所述当前时刻的下一时刻的实际状态;其中,所述差异策略基于将所述任务策略多次迁移至所述实际控制系统后得到的样本实际状态集合与所述任务策略输出的参考状态集合之间的状态偏差集合以及每次迁移对应的样本修正动作确定。
[0007]根据本专利技术提供的一种机器人控制策略迁移方法,所述差异策略具体通过如下方法确定:将所述任务策略多次迁移至所述实际控制系统,并基于所述实际控制系统执行每次所述任务策略得到的样本动作,确定所述目标机器人的样本实际状态集合;对于任一次迁移,基于所述目标机器人的参考状态集合以及所述任一次迁移对应的样本实际状态集合之间的状态偏差集合,确定所述任一次迁移对应的样本修正动作;
基于多次迁移对应的样本修正动作以及各样本修正动作对应的样本实际状态,确定所述差异策略。
[0008]根据本专利技术提供的一种机器人控制策略迁移方法,所述基于所述目标机器人的参考状态集合以及所述任一次迁移对应的样本实际状态集合之间的状态偏差集合,确定所述任一次迁移对应的样本修正动作,具体包括:从所述状态偏差集合中按时间顺序选取第一个超过阈值的状态偏差,并确定所述状态偏差对应的备选样本修正动作集合;基于所述状态偏差、所述备选样本修正动作集合中每一备选样本修正动作对所述状态偏差对应的样本实际状态进行修正后得到的样本估计状态以及所述状态偏差对应的参考状态,确定所述样本修正动作。
[0009]根据本专利技术提供的一种机器人控制策略迁移方法,所述基于多次迁移对应的样本修正动作以及各样本修正动作对应的样本实际状态,确定所述差异策略,具体包括:基于多次迁移对应的样本修正动作以及各样本修正动作对应的样本实际状态,构造训练目标,并基于所述训练目标,通过多次迁移对应的样本修正动作以及各样本修正动作对应的样本实际状态训练得到所述差异策略。
[0010]根据本专利技术提供的一种机器人控制策略迁移方法,所述基于多次迁移对应的样本修正动作以及各样本修正动作对应的样本实际状态,确定所述差异策略,之前还包括:剔除多次迁移对应的样本修正动作以及各样本修正动作对应的样本实际状态中的重复样本修正动作以及所述重复样本修正动作对应的样本实际状态。
[0011]根据本专利技术提供的一种机器人控制策略迁移方法,所述任务策略基于强化学习方法预先训练得到,训练时采用的奖励函数基于所述目标机器人的待执行任务中涉及的目标物体的实际位置与目标位置之间的距离函数确定。
[0012]本专利技术还提供一种机器人控制策略迁移装置,包括:任务策略迁移模块,用于将目标机器人的任务策略迁移至所述目标机器人的实际控制系统,并基于所述实际控制系统,确定所述目标机器人在当前时刻的实际状态;差异策略迁移模块,用于若判断获知所述实际状态与基于所述任务策略确定的参考状态的差值在预设范围外,则将所述目标机器人的差异策略迁移至所述实际控制系统,以使所述实际控制系统执行所述任务策略以及所述差异策略下的耦合动作,进而确定所述目标机器人在所述当前时刻的下一时刻的实际状态;其中,所述差异策略基于将所述任务策略多次迁移至所述实际控制系统后得到的样本实际状态集合与所述任务策略输出的参考状态集合之间的状态偏差集合以及每次迁移对应的样本修正动作确定。
[0013]本专利技术还提供一种机器人控制策略迁移系统,包括:摄像装置以及上述所述的机器人控制策略迁移装置,所述机器人控制策略迁移装置与所述摄像装置连接;所述摄像装置用于获取目标机器人的实际状态。
[0014]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述机器人控制策略迁移方法的步骤。
[0015]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计
算机程序被处理器执行时实现如上述任一种所述机器人控制策略迁移方法的步骤。
[0016]本专利技术提供的机器人控制策略迁移方法、装置及系统,首先将目标机器人的任务策略迁移至目标机器人的实际控制系统,并基于实际控制系统,确定目标机器人在当前时刻的实际状态;然后当实际状态与基于任务策略确定的参考状态的差值在预设范围外时,将目标机器人的差异策略迁移至实际控制系统,以使实际控制系统执行任务策略以及所述差异策略下的耦合动作,进而确定目标机器人在当前时刻的下一时刻的实际状态。由于在实际状态与基于任务策略确定的参考状态的差值在预设范围外时引入了差异策略,通过任务策略与差异策略的双策略协同迁移,可以保证任务策略在实际控制系统的应用效果,使得实际控制系统对目标机器人的控制更加准确,实现待执行任务的顺利执行。
附图说明
[0017]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术提供的机器人控制策略迁移方法的流程示意图之一;图2是本专利技术提供的机器人控制策略迁移方法的流程示意图之二;图3是本专利技术提供的机器人控制策略迁移方法的流程示意图之三;图4是本专利技术提供的机器人控制策略迁移方法中任务策本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器人控制策略迁移方法,其特征在于,包括:将目标机器人的任务策略迁移至所述目标机器人的实际控制系统,并基于所述实际控制系统,确定所述目标机器人在当前时刻的实际状态;若判断获知所述实际状态与基于所述任务策略确定的参考状态的差值在预设范围外,则将所述目标机器人的差异策略迁移至所述实际控制系统,以使所述实际控制系统执行所述任务策略以及所述差异策略下的耦合动作,进而确定所述目标机器人在所述当前时刻的下一时刻的实际状态;其中,所述差异策略基于将所述任务策略多次迁移至所述实际控制系统后得到的样本实际状态集合与所述任务策略输出的参考状态集合之间的状态偏差集合以及每次迁移对应的样本修正动作确定。2.根据权利要求1所述的机器人控制策略迁移方法,其特征在于,所述差异策略具体通过如下方法确定:将所述任务策略多次迁移至所述实际控制系统,并基于所述实际控制系统执行每次所述任务策略得到的样本动作,确定所述目标机器人的样本实际状态集合;对于任一次迁移,基于所述目标机器人的参考状态集合以及所述任一次迁移对应的样本实际状态集合之间的状态偏差集合,确定所述任一次迁移对应的样本修正动作;基于多次迁移对应的样本修正动作以及各样本修正动作对应的样本实际状态,确定所述差异策略。3.根据权利要求2所述的机器人控制策略迁移方法,其特征在于,所述基于所述目标机器人的参考状态集合以及所述任一次迁移对应的样本实际状态集合之间的状态偏差集合,确定所述任一次迁移对应的样本修正动作,具体包括:从所述状态偏差集合中按时间顺序选取第一个超过阈值的状态偏差,并确定所述状态偏差对应的备选样本修正动作集合;基于所述状态偏差、所述备选样本修正动作集合中每一备选样本修正动作对所述状态偏差对应的样本实际状态进行修正后得到的样本估计状态以及所述状态偏差对应的参考状态,确定所述样本修正动作。4.根据权利要求2所述的机器人控制策略迁移方法,其特征在于,所述基于多次迁移对应的样本修正动作以及各样本修正动作对应的样本实际状态,确定所述差异策略,具体包括:基于多次迁移对应的样本修正动作以及各样本修正动作对应的样本实际状态,构造训练目标,并基于所述训练目标,通过多次迁移...

【专利技术属性】
技术研发人员:刘智勇吴亮东
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1