机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人制造方法及图纸

技术编号：33907388 阅读：20 留言：0更新日期：2022-06-25 18:54

机器人控制模型学习装置(10)对于以表示在动态环境中向目的地自主行驶的机器人的状态的状态信息为输入而从包括介入环境的介入行动的多个行动中选择并输出与机器人的状态对应的行动的机器人控制模型，将执行了介入行动的介入次数作为负的报酬对该机器人控制模型进行强化学习。型进行强化学习。型进行强化学习。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人

[0001]本公开的技术涉及机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人。

技术介绍

[0002]在以RRT(Rapidly
‑
exploring Random Tree：快速扩展随机树)或PRM(Probabilistic Road Map：概率路线图)为代表的路径计划方法中，通过进行将被采样的空间上的各地点作为节点的图表搜索，导出从初始位置向目的位置的路径。
[0003]这些方法以静态已知的环境为对象，在动态环境下，每当环境发生变化时需要进行“重新计划”。
[0004]现有的“重新计划”方法的基本是根据环境变化来更新地图，搜索能够连续地变形的另外的全局路径，但在如人群环境那样的密集连续地产生变化那样的环境中找不到解，在重新计划中可能频繁地引起机器人的停止。
[0005]另外，在人群等拥挤环境下，单纯地持续去除眼前的障碍物，对环境造成很大的压力。
[0006]非专利文献1(Decentralized Non
‑
communicating Multiagent Collision Avoidance with Deep Reinforcement Learning https://arxiv.org/pdf/1609.07845)中公开了通...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种机器人控制模型学习方法，由计算机执行包括如下步骤的处理：学习步骤，对于以表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息为输入而从包括介入所述环境的介入行动的多个行动中选择并输出与所述机器人的状态对应的行动的机器人控制模型，将执行了所述介入行动的介入次数作为负的报酬对该机器人控制模型进行强化学习。2.根据权利要求1所述的机器人控制模型学习方法，其中，所述行动包括所述机器人的移动方向、所述机器人的移动速度以及所述介入行动中的至少1个，以使所述机器人到达所述目的地为止的到达时间以及所述介入次数中的至少一方变小的方式给出所述报酬。3.根据权利要求1或2所述的机器人控制模型学习方法，其中，所述行动包括回避所述机器人与其他物体碰撞的回避行动，以使回避所述碰撞的回避次数变小的方式给出所述报酬。4.根据权利要求1至3中的任一项所述的机器人控制模型学习方法，其中，所述学习步骤通过对表示所述机器人的状态的状态价值函数进行更新来进行强化学习。5.一种机器人控制模型学习装置，其包括：学习部，其对于以表示在动态环境中自主行驶至目的地为止的机器人的状态的状态信息为输入而从包括介入所述环境的介入行动的多个行动中选择并输出与所述机器人的状态对应的行动的机器人控制模型，将执行了所述介入行动的介入次数作为负的报酬对该机器人控制模型进行强化学习。6.一种机器人控制模型学习程序，该机器人控制模型学习程序用于使计算机执行包括如下步骤的处理：学习步骤，对于以表示在动态环境中自主行驶至目的地为止的机器人的状态...

【专利技术属性】
技术研发人员：黑濑真衣，米谷龙，
申请(专利权)人：欧姆龙株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人