多机器人协同避障方法、装置和智能机器人制造方法及图纸

技术编号:30179293 阅读:20 留言:0更新日期:2021-09-25 15:41
本发明专利技术提供一种多机器人协同避障方法、装置和智能机器人,该多机器人协同避障方法包括:在执行完上一动作后,通过预设回报函数获取反馈回报;获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。本发明专利技术的多机器人协同避障方法,通过获取自身状态数据以及其它智能机器人的协同状态数据,实现多个智能机器人执行相同的路径任务时,可协同路径规划并保持协同关系,使协同避障模型的下一动作避障成功率更高,提高多个智能机器人执行相同的路径任务的效率,提高用户体验度。提高用户体验度。提高用户体验度。

【技术实现步骤摘要】
多机器人协同避障方法、装置和智能机器人


[0001]本专利技术涉及机器人领域,具体而言,涉及一种多机器人协同避障方法、装置、智能机器人和可读存储介质。

技术介绍

[0002]智能机器人一般是具有感知和决策能力的个体,能够基于从环境中接收到的信息来执行相应的动作。而现有的智能机器人,一般只能执行单体的路径任务,对于多智能机器人在相同路径任务下的情况,难以做到协同避障,从而使多个智能机器人执行相同的路径任务的效率较低。

技术实现思路

[0003]鉴于上述问题,本专利技术提供了一种多机器人协同避障方法、装置、智能机器人和可读存储介质,以提高多个智能机器人执行相同的路径任务的效率,提高用户体验度。
[0004]为了实现上述目的,本专利技术采用如下的技术方案:一种多机器人协同避障方法,包括:在执行完上一动作后,通过预设回报函数获取反馈回报;获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。
[0005]优选地,所述的多机器人协同避障方法中,所述自身状态数据和所述协同状态数据包括目标点位置数据以及相应机器人的位置数据、速度数据、对应静态障碍物的位置数据、对应动态障碍物的位置数据。
[0006]优选地,所述的多机器人协同避障方法中,所述预设强化学习算法为深度确定性策略梯度法,所述协同避障模型包括值函数网络以及策略网络;所述将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作包括:将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至所述值函数网络,获得相应的评估信息;根据所述评估信息对所述策略网络进行更新运算;从更新运算后的所述策略网络获得所述下一动作。
[0007]优选地,所述的多机器人协同避障方法中,还包括:在执行所述下一动作后,获取机器人相应的新的自身状态数据,将所述下一动作、所述新的自身状态数据、所述上一动作的所述反馈回报以及所述上一动作的所述自身状态数据关联为状态转移数据,并存储至预设的经验回放池。
[0008]优选地,所述的多机器人协同避障方法中,还包括:
从所述经验回放池中筛选出预设数量的所述反馈回报大于或等于预设回报值的目标状态转移数据;将预设数量的所述目标状态转移数据作为训练样本,对所述协同避障模型进行训练。
[0009]优选地,所述的多机器人协同避障方法中,所述动态障碍物为基于比例引导法的动态追踪障碍物。
[0010]优选地,所述的多机器人协同避障方法中,所述预设回报函数的算式包括:
[0011]式中,为所述反馈回报,为距离回报函数,为协同回报,为绕开障碍物回报,为路径任务成功回报,为路径任务失败回报。
[0012]本专利技术还提供一种多机器人协同避障装置,包括:反馈回报获取模块,用于在执行完上一动作后,通过预设回报函数获取反馈回报;状态数据获取模块,用于获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;协同避障动作获取模块,用于将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。
[0013]本专利技术还提供一种智能机器人,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行所述的多机器人协同避障方法。
[0014]本专利技术还提供一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行所述的多机器人协同避障方法。
[0015]本专利技术提供一种多机器人协同避障方法,该多机器人协同避障方法包括:在执行完上一动作后,通过预设回报函数获取反馈回报;获取自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。本专利技术的多机器人协同避障方法,通过获取自身状态数据以及其它智能机器人的协同状态数据,实现多个智能机器人在执行相同的路径任务时,可以协同路径规划并保持协同关系,使协同避障模型的下一动作避障成功率更高,从而提高多个智能机器人执行相同的路径任务的效率,提高用户体验度。
[0016]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0017]为了更清楚地说明本专利技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对本专利技术保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
[0018]图1是本专利技术实施例1提供的一种多机器人协同避障方法的流程图;图2是本专利技术实施例2提供的一种获得下一动作的流程图;图3是本专利技术实施例3提供的一种多机器人协同避障方法的流程图;
图4是本专利技术实施例3提供的另一种多机器人协同避障方法的流程图;图5是本专利技术实施例4提供的一种多机器人协同避障装置的结构示意图。
具体实施方式
[0019]下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0020]通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]在下文中,可在本专利技术的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
[0022]此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0023]除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关
中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本专利技术的各种实施例中被清楚地限定。
[0024]实施例1图1是本专利技术实施例1提供的一种多机器人协同避障方法的流程图,该方法包括如下步骤:步骤S11:在执行完上一动作后,通过预设回报函数获取反馈回报。
[0025]本专利技术实施例中,上述机器人即本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多机器人协同避障方法,其特征在于,包括:在执行完上一动作后,通过预设回报函数获取反馈回报;获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。2.根据权利要求1所述的多机器人协同避障方法,其特征在于,所述自身状态数据和所述协同状态数据包括目标点位置数据以及相应机器人的位置数据、速度数据、对应静态障碍物的位置数据、对应动态障碍物的位置数据。3.根据权利要求1所述的多机器人协同避障方法,其特征在于,所述预设强化学习算法为深度确定性策略梯度法,所述协同避障模型包括值函数网络以及策略网络;所述将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作包括:将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至所述值函数网络,获得相应的评估信息;根据所述评估信息对所述策略网络进行更新运算;从更新运算后的所述策略网络获得所述下一动作。4.根据权利要求2所述的多机器人协同避障方法,其特征在于,还包括:在执行所述下一动作后,获取机器人相应的新的自身状态数据,将所述下一动作、所述新的自身状态数据、所述上一动作的所述反馈回报以及所述上一动作的所述自身状态数据关联为状态转移数据,并存储至预设的经验回放池。5.根据权利要求...

【专利技术属性】
技术研发人员:宋佳罗雨歇赵凯徐小蔚童心迪
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1