机器人模型的学习装置、机器人模型的机器学习方法、机器人模型的机器学习程序、机器人控制装置、机器人控制方法、以及机器人控制程序制造方法及图纸

技术编号:39055706 阅读:16 留言:0更新日期:2023-10-12 19:48
机器人控制装置,获取机器人的位置姿态的实际值以及对机器人施加的外力的实际值,执行包括基于某一时段的位置姿态的实际值以及能够提供给机器人的行动指令,算出机器人的位置姿态的预测值的状态迁移模型以及算出对机器人施加的外力的预测值的外力模型的机器人模型,基于位置姿态的误差以及外力的预测值算出奖励,对于每个控制周期,生成行动指令的多个候补并提供给机器人模型,基于与行动指令的多个候补分别对应算出的奖励确定使奖励最大化的行动指令,更新外力模型,以使得外力模型基于确定的行动指令算出的外力的预测值和与该外力的预测值对应的外力的实际值之间的差异变小。变小。变小。

【技术实现步骤摘要】
【国外来华专利技术】机器人模型的学习装置、机器人模型的机器学习方法、机器人模型的机器学习程序、机器人控制装置、机器人控制方法、以及机器人控制程序


[0001]公开的技术涉及机器人模型的学习装置、机器人模型的机器学习方法、机器人模型的机器学习程序、机器人控制装置、机器人控制方法、以及机器人控制程序。

技术介绍

[0002]为了自动获得机器人为了完成作业所需的控制规则,通过机器学习来进行学习机器人模型。
[0003]例如,在日本特开2020

055095号公报中,公开一种控制具备检测施加在机械手的力和力矩的功能的工业用机器人的控制装置,具备:控制部,基于控制指令控制所述工业用机器人、数据获取部,获取施加在所述工业用机器人的机械手的力以及力矩的至少一个作为获取数据、以及预处理部,所述预处理部基于所述获取数据,生成表示包括施加在所述机械手的力涉及的信息的力状态数据、以及所述机械手涉及的控制指令的调整行动的控制指令调整数据作为状态数据,基于所述状态数据,执行与所述机械手涉及的控制指令的调整行动相关的机器学习的处理的技术。

技术实现思路

[0004]专利技术所要解决的技术问题
[0005]但是,通过机器学习学习机器人模型时的参数的设定以及奖励函数的设计很难,因此有效学习是困难的。
[0006]公开的技术是鉴于上述的点而成的,以在通过机器学习学习机器人模型时,提供可以有效学习的机器人模型的学习装置、机器人模型的机器学习方法、机器人模型的机器学习程序、机器人控制装置、机器人控制方法、以及机器人控制程序为目的。
[0007]用于解决技术问题的方案
[0008]公开的第一方式是机器人模型的学习装置,具备:获取部,获取机器人的位置姿态的实际值以及对所述机器人施加的外力的实际值、机器人模型,所述机器人模型包括基于某一时段的所述位置姿态的实际值以及能够提供给所述机器人的行动指令,算出下一时段的所述机器人的位置姿态的预测值的状态迁移模型以及算出对所述机器人施加的外力的预测值的外力模型;模型执行部,执行所述机器人模型;奖励算出部,基于所述位置姿态的预测值与应达到的位置姿态的目标值之间的误差以及所述外力的预测值算出奖励;行动确定部,对于每个控制周期,生成所述行动指令的多个候补并提供给所述机器人模型,基于所述奖励算出部对应于所述行动指令的多个候补分别算出的奖励确定使奖励最大化的行动指令;以及外力模型更新部,更新所述外力模型,以使得所述外力模型基于确定的所述行动指令算出的所述外力的预测值和与该外力的预测值对应的所述外力的实际值之间的差异变小。
[0009]根据上述第一方式,也可以构成为具备状态迁移模型更新部,所述状态迁移模型更新部更新所述状态迁移模型,以使得所述状态迁移模型基于确定的所述行动指令算出的所述位置姿态的预测值和与该位置姿态的预测值对应的所述位置姿态的实际值之间的误差变小。
[0010]根据上述第一方式,也可以为在所述外力为抑制所述误差的扩大的外力即修正外力的情况下,所述奖励算出部通过将所述修正外力的预测值作为所述奖励的减少因素的计算来算出所述奖励。
[0011]根据上述第一方式,也可以为在所述外力为抑制所述误差的缩小的外力即对抗外力的情况下,所述奖励算出部通过将所述对抗外力的预测值作为所述奖励的增加因素的计算来算出所述奖励。
[0012]根据上述第一方式,也可以为所述奖励算出部,在所述外力为抑制所述误差的扩大的修正外力的情况下,通过将所述修正外力的预测值作为所述奖励的减少因素的计算来算出所述奖励,在所述外力为抑制所述误差的缩小的外力即对抗外力的情况下,通过将所述对抗外力的预测值作为所述奖励的增加因素的计算来算出所述奖励。
[0013]根据上述第一方式,也可以为所述奖励算出部通过基于任务执行中的所述修正外力的预测值的所述奖励的减少量的变化幅度比基于所述误差的所述奖励的变化幅度小,且基于任务执行中的所述对抗外力的预测值的所述奖励的增加量的变化幅度比基于所述误差的所述奖励的变化幅度小的计算来算出所述奖励。
[0014]根据上述第一方式,也可以构成为所述外力模型包括:在所述外力为所述修正外力的情况下输出所述修正外力的预测值的修正外力模型、以及在所述外力为所述对抗外力的情况下输出所述对抗外力的预测值的对抗外力模型,所述外力模型更新部包括:修正外力模型更新部,更新所述修正外力模型,以使得在所述外力为所述修正外力的情况下,所述修正外力模型基于所述确定的行动指令算出的所述修正外力的预测值与所述外力的实际值的差异变小;以及对抗外力模型更新部,更新所述对抗外力模型,以使得在所述外力为所述对抗外力的情况下,所述对抗外力模型基于所述确定的行动指令算出的所述对抗外力的预测值与所述外力的实际值的差异变小。
[0015]根据上述第一方式,也可以为所述机器人模型包括具备所述修正外力模型以及所述对抗外力模型的整合外力模型,所述修正外力模型以及所述对抗外力模型为神经网络,所述对抗外力模型的一个或者多个中间层以及输出层中的至少一层通过渐进式神经网络的方法整合所述修正外力模型的对应的层的前段的层的输出,所述对抗外力模型输出外力的预测值以及该外力为修正外力还是对抗外力的识别信息,所述整合外力模型将所述对抗外力模型的输出作为自身的输出,所述奖励算出部,在所述识别信息表示为修正外力的情况下,通过将所述外力的预测值作为所述奖励的减少因素的计算来算出所述奖励,在所述识别信息表示为对抗外力的情况下,通过将所述外力的预测值作为所述奖励的增加因素的计算来算出所述奖励。
[0016]根据上述第一方式,也可以是还具备受理所述外力为所述修正外力还是所述对抗外力的指定的受理部,还具备学习控制部,所述学习控制部在所述指定为所述修正外力的情况下,使所述修正外力模型更新部的动作有效化,所述学习控制部在所述指定为所述对抗外力的情况下,使所述对抗外力模型更新部的动作有效化的构成。
[0017]根据上述第一方式,也可以构成为还具备学习控制部,所述学习控制部基于所述位置姿态的实际值以及所述外力的实际值判别所述外力为所述修正外力还是所述对抗外力,在所述判别的结果为所述修正外力的情况下,使所述修正外力模型更新部的动作有效化,在所述判别的结果为所述对抗外力的情况下,使所述对抗外力模型更新部的动作有效化。
[0018]公开的第二方式是机器人模型的机器学习方法,准备机器人模型,所述机器人模型包括基于某一时段的机器人的位置姿态的实际值以及能够提供给所述机器人的行动指令,算出下一时段的所述机器人的位置姿态的预测值的状态迁移模型以及算出对所述机器人施加的外力的预测值的外力模型,对于每个控制周期,获取所述位置姿态的实际值以及对所述机器人施加的外力的实际值,对于每个控制周期,生成所述行动指令的多个候补并提供给所述机器人模型,基于与所述行动指令的多个候补对应由所述状态迁移模型算出的多个所述位置姿态的预测值与应达到的位置姿态的目标值之间的多个误差以及与所述行动指令的多个候补对应由所述外力模型算出的多个所述外力的预测值,基于与所述行动指令的多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种机器人模型的学习装置,具备:获取部,获取机器人的位置姿态的实际值以及对所述机器人施加的外力的实际值;机器人模型,包括基于某一时段的所述位置姿态的实际值以及能够提供给所述机器人的行动指令,算出下一时段的所述机器人的位置姿态的预测值的状态迁移模型以及算出对所述机器人施加的外力的预测值的外力模型;模型执行部,执行所述机器人模型;奖励算出部,基于所述位置姿态的预测值与应达到的位置姿态的目标值之间的误差以及所述外力的预测值算出奖励;行动确定部,对于每个控制周期,生成所述行动指令的多个候补并提供给所述机器人模型,基于所述奖励算出部对应于所述行动指令的多个候补分别算出的奖励确定使奖励最大化的行动指令;以及外力模型更新部,更新所述外力模型,以使得所述外力模型基于确定的所述行动指令算出的所述外力的预测值和与该外力的预测值对应的所述外力的实际值之间的差异变小。2.根据权利要求1所述的机器人模型的学习装置,所述机器人模型的学习装置还具备:状态迁移模型更新部,更新所述状态迁移模型,以使得所述状态迁移模型基于确定的所述行动指令算出的所述位置姿态的预测值和与该位置姿态的预测值对应的所述位置姿态的实际值之间的误差变小。3.根据权利要求1或2所述的机器人模型的学习装置,在所述外力为抑制所述误差的扩大的外力即修正外力的情况下,所述奖励算出部通过将所述修正外力的预测值作为所述奖励的减少因素的计算来算出所述奖励。4.根据权利要求1或2所述的机器人模型的学习装置,在所述外力为抑制所述误差的缩小的外力即对抗外力的情况下,所述奖励算出部通过将所述对抗外力的预测值作为所述奖励的增加因素的计算来算出所述奖励。5.根据权利要求1或2所述的机器人模型的学习装置,所述奖励算出部在所述外力为抑制所述误差的扩大的修正外力的情况下,通过将所述修正外力的预测值作为所述奖励的减少因素的计算来算出所述奖励,所述奖励算出部在所述外力为抑制所述误差的缩小的外力即对抗外力的情况下,通过将所述对抗外力的预测值作为所述奖励的增加因素的计算来算出所述奖励。6.根据权利要求5所述的机器人模型的学习装置,所述奖励算出部通过基于任务执行中的所述修正外力的预测值的所述奖励的减少量的变化幅度比基于所述误差的所述奖励的变化幅度小,且基于任务执行中的所述对抗外力的预测值的所述奖励的增加量的变化幅度比基于所述误差的所述奖励的变化幅度小的计算来算出所述奖励。7.根据权利要求5或6所述的机器人模型的学习装置,所述外力模型包括:在所述外力为所述修正外力的情况下输出所述修正外力的预测值的修正外力模型、以及在所述外力为所述对抗外力的情况下输出所述对抗外力的预测值的对抗外力模型,所述外力模型更新部包括:修正外力模型更新部,更新所述修正外力模型,以使得在所述外力为所述修正外力的情况下,所述修正外力模型基于所述确定的行动指令算出的所述
修正外力的预测值与所述外力的实际值的差异变小;以及对抗外力模型更新部,更新所述对抗外力模型,以使得在所述外力为所述对抗外力的情况下,所述对抗外力模型基于所述确定的行动指令算出的所述对抗外力的预测值与所述外力的实际值的差异变小。8.根据权利要求7所述的机器人模型的学习装置,所述机器人模型包括具备所述修正外力模型以及所述对抗外力模型的整合外力模型,所述修正外力模型以及所述对抗外力模型为神经网络,所述对抗外力模型的一个或者多个中间层以及输出层中的至少一层通过渐进式神经网络的方法整合所述修正外力模型的对应的层的前段的层的输出,所述整合外力模型将所述对抗外力模型的输出作为外力的预测值输出,所述整合外力模型对输出的所述外力的预测值为修正外力的预测值还是对抗外力的预测值的识别信息进行输出,所述奖励算出部在所述识别信息表示为修正外力的预测值的情况下,通过将所述外力的预测值作为所述奖励的减少因素的计算来算出所述奖励,所述奖励算出部在所述识别信息表示为对抗外力的预测值的情况下,通过将所述外力的预测值作为所述奖励的增加因素的计算来算出所述奖励。9.根据权利要求7或8所述的机器人模型的学习装置,所述机器人模型的学习装置还具备受理所述外力为所述修正外力还是所述对抗外力的指定的受理部,所述机器人模型的学习装置还具备学习控制部,所述学习控制部在所述指定为所述修正外力的情况下,使所述修正外力模型更新部的动作有效化,所述学习控制部在所述指定为所述对抗外力的情况下使所述对抗外力模型更新部的动作有效化。10.根据权利要求7或8所述的机器人模型的学习装置,所述机器人模型的学习装置还具备学习控制部,所述学习控制部基于所述位置姿态的实际值以及所述外力的实际值判别所述外力为所述修正外力还是所述对抗外力,在所述判别的结果为所述修正外力的情况下,使所述修正外力模型更新部的动作有效化,在所述判别的结果为所述对抗外力的情况下,使所述对抗外力模型更新部的动作有效化。11.一种机器人模型的机器学习方法,进行如下步骤:准备机器人模型,所述机器人模型包括基于某一时段的机器人的位置姿态的实际值以及能够提供给所述机器人的行动指令,算出下一时段的所述机器人的位置姿态的预测值的状态迁移模型以及算出对所述机器人施加的外力的预测值的外力模型,对于每个控制周期,获取所述位置姿态的实际值以及对所述机器人施加的外力的实际值,对于每个控制周期,生成所述行动指令的多个候补并提供给所述机器人模型,基于与所述行动指令的多个候补对应由所述状态迁移模型算出的多个所述位置姿态的预测值与应达到的位置姿态的目标值之间的多个误差以及与所述行动指令的多个候补对应由所述外力模型算出的多个所述外力的预测值,基于与所述行动指令的多个候补对应算出的多个奖励,确定使奖励最大化的行动指令,更新所述外力模型,以使得所述外力...

【专利技术属性】
技术研发人员:滨屋政志田中一敏
申请(专利权)人:欧姆龙株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1