机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人制造方法及图纸

技术编号:33907388 阅读:20 留言:0更新日期:2022-06-25 18:54
机器人控制模型学习装置(10)对于以表示在动态环境中向目的地自主行驶的机器人的状态的状态信息为输入而从包括介入环境的介入行动的多个行动中选择并输出与机器人的状态对应的行动的机器人控制模型,将执行了介入行动的介入次数作为负的报酬对该机器人控制模型进行强化学习。型进行强化学习。型进行强化学习。

【技术实现步骤摘要】
【国外来华专利技术】机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人


[0001]本公开的技术涉及机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人。

技术介绍

[0002]在以RRT(Rapidly

exploring Random Tree:快速扩展随机树)或PRM(Probabilistic Road Map:概率路线图)为代表的路径计划方法中,通过进行将被采样的空间上的各地点作为节点的图表搜索,导出从初始位置向目的位置的路径。
[0003]这些方法以静态已知的环境为对象,在动态环境下,每当环境发生变化时需要进行“重新计划”。
[0004]现有的“重新计划”方法的基本是根据环境变化来更新地图,搜索能够连续地变形的另外的全局路径,但在如人群环境那样的密集连续地产生变化那样的环境中找不到解,在重新计划中可能频繁地引起机器人的停止。
[0005]另外,在人群等拥挤环境下,单纯地持续去除眼前的障碍物,对环境造成很大的压力。
[0006]非专利文献1(Decentralized Non

communicating Multiagent Collision Avoidance with Deep Reinforcement Learning https://arxiv.org/pdf/1609.07845)中公开了通过深度强化学习获得碰撞回避策略的技术。在非专利文献1所公开的技术中,获得在回避与周边的代理碰撞的同时使到达目的地的到达时间最小化的策略。
[0007]非专利文献2(Socially Aware Motion Planning with Deep Reinforcement Learning https://arxiv.org/pdf/1703.08862.pdf)公开了对非专利文献1所公开的技术进行了改进的技术。在非专利文献2所公开的技术中,通过对考虑了人的碰撞回避行动的特性的报酬函数添加社交范数(社会规范),从而实现社会上自然的回避行动。
[0008]在非专利文献3(ZMP https://news.mynavi.jp/article/20180323

604926/)中公开了如下技术:通过对路径计划上的障碍物(人)进行催促让路的介入行动,不变更机器人自身的路径计划地进行自主行驶。

技术实现思路

[0009]专利技术所要解决的课题
[0010]然而,上述非专利文献1、2所公开的技术都仅处理针对环境的消极的碰撞回避行动,不涉及介入行动。
[0011]另外,非专利文献1、2所公开的技术是设想与少数的代理的交互的技术,没有设想人群环境下的情况。
[0012]另外,如非专利文献3所公开的技术那样,基于单纯的策略的介入虽然安装容易,
但若介入的频度高,则会成为环境侧的压力的原因,并且有时会使周围的步行者组的输送效率恶化。
[0013]本公开的技术是鉴于上述的点而完成的,其目的在于提供在动态环境中使机器人向目的地移动的情况下,能够减少机器人介入周围环境的介入行动的次数的机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人。
[0014]用于解决课题的手段
[0015]本公开的第一方式是机器人控制模型学习方法,其具备:学习步骤,对于以表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息为输入而从包括介入所述环境的介入行动的多个行动中选择并输出与所述机器人的状态对应的行动的机器人控制模型,将执行了所述介入行动的介入次数作为负的报酬对该机器人控制模型进行强化学习。
[0016]在上述第一方式中,也可以是,所述行动包括所述机器人的移动方向、所述机器人的移动速度以及所述介入行动中的至少1个,以使所述机器人到达所述目的地为止的到达时间以及所述介入次数中的至少一方变小的方式给出所述报酬。
[0017]在上述第一方式中,也可以是,所述行动包括回避所述机器人与其他物体碰撞的回避行动,以使回避所述碰撞的回避次数变小的方式给出所述报酬。
[0018]在上述第一方式中,也可以是,所述学习步骤通过对表示所述机器人的状态的状态价值函数进行更新来进行强化学习。
[0019]本公开的第二方式是一种机器人控制模型学习装置,其包括:学习部,其对于以表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息为输入而从包括介入所述环境的介入行动的多个行动中选择并输出与所述机器人的状态对应的行动的机器人控制模型,将执行了所述介入行动的介入次数作为负的报酬对该机器人控制模型进行强化学习。
[0020]本公开的第三方式是机器人控制模型学习程序,其使计算机执行包括如下步骤的处理:学习步骤,对于以表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息为输入而从包括介入所述环境的介入行动的多个行动中选择并输出与所述机器人的状态对应的行动的机器人控制模型,将执行了所述介入行动的介入次数作为负的报酬对该机器人控制模型进行强化学习。
[0021]本公开的第四方式是机器人控制方法,其使计算机执行包括如下步骤的处理:取得步骤,取得表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息;以及控制步骤,基于所述状态信息和通过机器人控制模型学习方法进行学习后的机器人控制模型,进行控制使得所述机器人移动到所述目的地。
[0022]本公开的第五方式是机器人控制装置,其包括:取得部,其取得表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息;以及控制部,其基于所述状态信息和由机器人控制模型学习装置进行学习后的机器人控制模型,进行控制使得所述机器人移动到所述目的地。
[0023]本公开的第六方式是机器人控制程序,其使计算机执行包括如下步骤的处理:取得步骤,取得表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息;以及
控制步骤,基于所述状态信息和通过机器人控制模型学习方法进行学习后的机器人控制模型,进行控制使得所述机器人移动到所述目的地。
[0024]本公开的第七方式是机器人,其包括:取得部,其取得表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息;自主行驶部,其使所述机器人自主行驶;以及控制部,其基于所述状态信息和由机器人控制模型学习装置进行学习后的机器人控制模型,进行控制使得所述机器人移动到所述目的地。
[0025]专利技术效果
[0026]根据本公开的技术,在动态环境中使机器人向目的地移动的情况下,能够减少机器人介入周围的环境的介入行动的次数。
附图说明
[0027]图1是表示机器人控制模型学习系统的概略结构的图。
[0028]图2是表示机器人控制模型学习装置的硬件结构的框图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种机器人控制模型学习方法,由计算机执行包括如下步骤的处理:学习步骤,对于以表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息为输入而从包括介入所述环境的介入行动的多个行动中选择并输出与所述机器人的状态对应的行动的机器人控制模型,将执行了所述介入行动的介入次数作为负的报酬对该机器人控制模型进行强化学习。2.根据权利要求1所述的机器人控制模型学习方法,其中,所述行动包括所述机器人的移动方向、所述机器人的移动速度以及所述介入行动中的至少1个,以使所述机器人到达所述目的地为止的到达时间以及所述介入次数中的至少一方变小的方式给出所述报酬。3.根据权利要求1或2所述的机器人控制模型学习方法,其中,所述行动包括回避所述机器人与其他物体碰撞的回避行动,以使回避所述碰撞的回避次数变小的方式给出所述报酬。4.根据权利要求1至3中的任一项所述的机器人控制模型学习方法,其中,所述学习步骤通过对表示所述机器人的状态的状态价值函数进行更新来进行强化学习。5.一种机器人控制模型学习装置,其包括:学习部,其对于以表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息为输入而从包括介入所述环境的介入行动的多个行动中选择并输出与所述机器人的状态对应的行动的机器人控制模型,将执行了所述介入行动的介入次数作为负的报酬对该机器人控制模型进行强化学习。6.一种机器人控制模型学习程序,该机器人控制模型学习程序用于使计算机执行包括如下步骤的处理:学习步骤,对于以表示在动态环境中自主行驶至目的地为止的机器人的状态...

【专利技术属性】
技术研发人员:黑濑真衣米谷龙
申请(专利权)人:欧姆龙株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1