一种加速机器人导航效率的方法技术

技术编号：40316008 阅读：27 留言：0更新日期：2024-02-07 20:58

本发明专利技术涉及人工智能应用技术领域，且公开了一种加速机器人导航效率的方法，具体包括问题描述和强化学习建模、奖励函数设置以及训练流程设计三个步骤，通过奖励的设置和训练流程的设计来最大限度地提高机器人在复杂环境中的导航效率和安全性；通过外部奖励的设计，机器人会受到迫使尽快导航到目标点的外在鼓励，从而加快了导航速度；通过保持安全距离和避免碰撞的设计，提高了导航的安全性；通过内在奖励的应用，机器人受到探索新状态的奖励，从而促使其主动探索和发现新的导航策略，提高了机器人的探索效率，通过使用深度学习算法对奖励函数进行优化和网络权重的更新，提高了机器人导航算法的学习效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能应用，具体涉及一种加速机器人导航效率的方法。

技术介绍

1、近年来，随着人工智能和机器人产业的蓬勃发展，越来越多的机器人出现在人们的视野当中，例如酒店、机场、餐厅、商场等等。正是由于机器人的应用范围及使用群体的扩大，使得机器人和人群不得不共享同一个环境，尤其是当机器人被应用于服务场景中。而导航作为移动机器人的一项必备及核心功能，在此场景中的表现则显得尤为重要。特别是当机器人在人群密集和环境复杂的情况下导航时，如何做到既要在人群中安全自由地穿梭，又要高效且遵守社交礼仪是一项不小的挑战，因为人类的意图是多变且未知的。

2、传统机器人导航方法的着重点在于如何避障，它们将人类视为障碍物，而忽略了人机之间的交互。其中一些方法为人类和机器人设置相同的运动规则，比如rvo(reciprocalvelocity obstacles)和sfm(social force model)。然而，这些人为设计的规则在面对拥挤的人群环境时可能会导致机器人冻结的情况发生，这是由于传统方法只有被动的避障而并没有理解环境。

3、最近，人们利用深度强化学习(drl)来解决这一问题，优于以往基于模型(传统)的算法。其中很多工作是使用环境中的其他agent的信息作为输入，包括其位置或速度。例如在多智能体避障场景中引入了一种算法：cadrl(基于深度强化学习的避障)，即在多智能体避障场景使用drl方法。还有一些其他方法使用了长短期记忆(lstm)，以获得对环境更好地理解。在基于社交注意力的强化学习(sarl)中，对人类和人类

4、对于drl算法来说，探索(在策略未知时为决策添加随机性)和利用(根据从环境中学到的知识完善策略)过程至关重要。而现有的基于深度强化学习的导航算法，大都存在以下两个问题：首先，由于强化学习中奖励的稀疏性，导致学习到一个良好的策略非常困难；其次，在现实环境中导航时，未知的状态会在导航的任何时候出现，而不仅仅是在训练的开始阶段。而且，在一些看起来并不乐观的状态下，也可能实现非常有价值的动作。例如，在接近人类的状态下，可能会出现非常有价值的操作(绕开行人)。因此，当机器人采取过于保守的导航策略时，将会降低机器人的导航效率，即陷入了局部最优解。

技术实现思路

1、为了弥补现有技术的不足，本专利技术提出一种使用外部奖励和内在奖励结合，以克服以往算法中的奖励稀疏及探索效率低下问题，并在更短时间内获得学习速度更快、奖励更高和成功率更高的策略的加速机器人导航效率的方法。

2、为实现上述目的，本专利技术提供如下技术方案：一种加速机器人导航效率的方法，具体包括以下步骤：

3、s1、问题描述和强化学习建模：将多智能体避障问题表述为状态部分可观测的序列决策问题，环境中有n个智能体，包括机器人和行人；用表示机器人的状态，包含机器人在t时刻的可观测状态和和不可观察状态，表示行人i的可观测状态；表示环境中群体的可观测状态；

4、机器人通过执行策略生成动作at从状态导航到目的地且机器人不知道其他行人的目的地和策略因此，所有智能体在t时刻的状态定义为：

5、

6、

7、

8、

9、其中为由和组成的环境的联合状态；目的是学习一个策略使机器人能够安全导航到目的地；

10、该问题被定义为马尔可夫决策过程；其中，目标是求解最优策略п*；最优策略就是使预期收益最大化的策略：

11、

12、s2、奖励函数设置：为了实现这一目标，设置新的奖励函数，奖励函数分为外部奖励和内在奖励；

13、外部奖励rex定义为下式：

14、

15、

16、其中dg是机器人与目标之间的距离，0.2是导航过程中最小安全距离；μi表示第i个人和机器人之间的距离，n代表人类数量；

17、内在奖励采用内在好奇心模块，它使用特征网络φ，将环境当前状态s和下一个状态st+1编码为特征空间φ(s)和φ(st+1)；将agent的水平状态转换为由特征向量定义的状态，即网络的输出；特征空间中的状态用于预测采取的动作而在当前状态φ(s)下的实际动作at则用于预测特征空间中的下一个状态然后对网络进行训练，以最大程度地减少at和预测动作误差；

18、因此，内在奖励rin是用φ(st+1)和之间的均方误差(mse)计算的，当agent访问未知或不可预测的状态时，均方误差会更高；

19、通过结合两种奖励，以提高机器人在人群中导航的效率和安全性能；总的奖励函数为：内在奖励rin乘以控制其影响力的超参数β，再加上外部奖励rex；公式如下：

20、

21、s3、训练流程设计：训练流程如下：

22、1、初始化环境、网络及机器人状态和策略；

23、2、通过机器人自带传感器获取环境信息；

24、3、提取获取到的环境信息并进行编码；

25、4、判断机器人是否抵达目标点。

26、作为优选，所述步骤s1中，机器人在t时刻的可观测状态包括：位置(px，py)、速度(vx，vy)、半径r；机器人在t时刻的不可观察状态包括：目标点(gx，gy)以及偏好速度vpref。

27、作为优选，所述步骤s1中，最优策略π*为在特定时间t，针对状态st选择最优行动at，π*：st→at。

28、作为优选，所述步骤s2中，外部奖励rex表示从外部环境获得的奖励，旨在鼓励agent朝目标导航，同时避免碰撞和与人类保持安全的距离。

29、作为优选，所述步骤s2中内在奖励用于鼓励agent探索新状态或减少预测行动后果的不确定性。

30、作为优选，所述步骤s33中，提取获取到的环境信息并进行编码的流程如下：

31、33.1、机器人根据初始策略输出动作a；

32、33.2、好奇心模块根据环境信息输出预测动作a’；

33、33.2.1、根据动作a’预测环境下一状态s’，并等待实际环境s产生。

34、作为优选，所述步骤s34中，判断机器人是否抵达目标点的流程如下：

35、34.1、若已抵达目标点，则给予外部奖励并生成下一个目标点；

36、34.1.2、获取环境的下一状态s；

37、34.1.3、计算s与33.2.1产生的s’的mse，并给予内在奖励；

38、34.1.4、结合内在奖励和外在奖励，更新网络权重；

39、34.2、若未抵达目标点，则判断是否到达最大步数限制或发生碰撞；

40、34.2.1、若到达最大步数限制或发生碰撞，则给予外部奖励并重置环境。

41、返回步骤34.1.2；

本文档来自技高网...

【技术保护点】

1.一种加速机器人导航效率的方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种加速机器人导航效率的方法，其特征在于：所述步骤S1中，机器人在t时刻的可观测状态包括：位置(px，py)、速度(vx，vy)、半径r；机器人在t时刻的不可观察状态包括：目标点(gx，gy)以及偏好速度vpref。

3.根据权利要求1所述的一种加速机器人导航效率的方法，其特征在于：所述步骤S1中，最优策略n*为在特定时间t，针对状态st选择最优行动at，П*：st→at。

4.根据权利要求1所述的一种加速机器人导航效率的方法，其特征在于：所述步骤S2中，外部奖励rex表示从外部环境获得的奖励，旨在鼓励agent朝目标导航，同时避免碰撞和与人类保持安全的距离。

5.根据权利要求1所述的一种加速机器人导航效率的方法，其特征在于：所述步骤S2中内在奖励用于鼓励agent探索新状态或减少预测行动后果的不确定性。

6.根据权利要求1所述的一种加速机器人导航效率的方法，其特征在于：所述步骤S33中，提取获取到的环境信息并进行编码的流程如下：</p>

7.根据权利要求1所述的一种加速机器人导航效率的方法，其特征在于：所述步骤S34中，判断机器人是否抵达目标点的流程如下：

...

【技术特征摘要】

1.一种加速机器人导航效率的方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种加速机器人导航效率的方法，其特征在于：所述步骤s1中，机器人在t时刻的可观测状态包括：位置(px，py)、速度(vx，vy)、半径r；机器人在t时刻的不可观察状态包括：目标点(gx，gy)以及偏好速度vpref。

3.根据权利要求1所述的一种加速机器人导航效率的方法，其特征在于：所述步骤s1中，最优策略n*为在特定时间t，针对状态st选择最优行动at，п*：st→at。

4.根据权利要求1所述的一种加速机器人导航效率的方法，其特征...

【专利技术属性】
技术研发人员：曹一波，叶鑫，杨正东，赵佳恒，范敬文，胡伊斐，
申请(专利权)人：广州创源机器人有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人