当前位置: 首页 > 专利查询>山东芯辰人工智能科技有限公司山东正晨科技股份有限公司专利>正文

基于深度强化学习的服务机器人无地图导航方法及系统技术方案

技术编号：38355694 阅读：11 留言：0更新日期：2023-08-05 17:27

本发明专利技术属于机器人导航技术领域，提供了一种基于深度强化学习的服务机器人无地图导航方法及系统。其中，基于深度强化学习的服务机器人无地图导航方法包括以服务机器人为中心的坐标系，在每个预设时间间隔，获取服务机器人自身状态以及人类的观测状态，进而得到服务机器人导航时的联合状态；根据服务机器人导航时的联合状态和最优值函数，确定出最优导航策略来最大化期望奖赏，以确定动作指令来及时调整服务机器人的自身速度；其中，利用预设价值网络的输出估计最优值函数；最优导航策略中的奖励函数基于危险区域和判断准则来确定，危险区域根据服务机器人与人类之间的相对速度以及人类可接受的安全距离来确定。及人类可接受的安全距离来确定。及人类可接受的安全距离来确定。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的服务机器人无地图导航方法及系统

[0001]本专利技术属于机器人导航
，尤其涉及一种基于深度强化学习的服务机器人无地图导航方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]服务机器人目前备受欢迎，越来越多地部署在与人共存的社会环境中。这些复杂的应用场景对机器人导航的安全性和稳定性提出了巨大挑战。一方面，由于人群行为的高随机性，机器人难以预测其意图，从而威胁了人机交互的安全性。另一方面，在实际应用中，机器人所用地图可能会存在局部区域缺失或难以实时更新等问题，限制了机器人导航性能。因此，这需要机器人能够像人一样具备在未知环境中进行导航的能力，同时有效避开人类和静态障碍。为实现上述功能，相关研究人员将机器人无地图导航研究划分为两个阶段，即先研究拥挤人群环境的机器人社交导航再研究复杂障碍环境(包含人类和静态障碍)的机器人无地图导航，由浅入深地逐步提升机器人智能化水平。
[0004]随着拥挤人群环境中机器人社交导航蓬勃发展，一个重要的类别是基于反应方法，它考虑有限范围内的障碍并在每个规划步骤进行重新决策。尽管反应式方法在避障方面很有效，但随着环境复杂度增加，易遭受冻结机器人问题。基于轨迹方法预测人类轨迹并遵守其合作规范以规划机器人的可行路径。虽然该方法已经成功地应用于现实机器人，但其泛化性较差，在复杂场景中没有展现一致的性能。目前，基于学习方法被广泛使用，该方法将机器人社交导航视为马尔可夫决策过程，并利用深度强化...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的服务机器人无地图导航方法，其特征在于，包括：以服务机器人为中心的坐标系，在每个预设时间间隔，获取服务机器人自身状态以及人类的观测状态，进而得到服务机器人导航时的联合状态；根据服务机器人导航时的联合状态和最优值函数，确定出最优导航策略来最大化期望奖赏，以确定动作指令来及时调整服务机器人的自身速度；其中，利用预设价值网络的输出估计最优值函数；最优导航策略中的奖励函数基于危险区域和判断准则来确定，危险区域根据服务机器人与人类之间的相对速度以及人类可接受的安全距离来确定。2.如权利要求1所述的基于深度强化学习的服务机器人无地图导航方法，其特征在于，所述价值网络用于：从人类的观测状态中提取人群最终表示，从激光雷达数据中提取嵌入特征，再结合机器人状态以及网络权重，估计出最优值函数。3.如权利要求1所述的基于深度强化学习的服务机器人无地图导航方法，其特征在于，所述奖励函数为分段函数，分段函数的条件分别为服务机器人与目标之间的距离、发生碰撞、服务机器人位于危险区域、服务机器人位于预先规划的不适区域以及其他情况。4.如权利要求1所述的基于深度强化学习的服务机器人无地图导航方法，其特征在于，根据距离条件和角度条件来确定机器人是否位于危险区域。5.如权利要求4所述的基于深度强化学习的服务机器人无地图导航方法，其特征在于，危险区域的半径和角度θ为：和角度θ为：其中，w
v
为速度权重，为当v
hr
＝0时的扇形半径，r
h
为人类半径，为人类可接受的最小舒适距离；v
hr
表示相对速度。6.如权利要求1所述的基于深度强化学习的服务机器人无地图导航方法，其特征在于，所述最优导航策略...

【专利技术属性】
技术研发人员：周风余，薛秉鑫，王兆辉，尹磊，孙正辉，高鹤，王哲，
申请(专利权)人：山东芯辰人工智能科技有限公司山东正晨科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人