一种自主机器人的二阶段自适应行为规划方法及系统技术方案

技术编号:29487923 阅读:34 留言:0更新日期:2021-07-30 18:59
本发明专利技术涉及一种自主机器人的二阶段自适应行为规划方法及系统。该方法包括:获取机器人任务以及当前环境状态;根据所述机器人任务以及所述当前环境状态建立伴随行为模型;所述伴随行为模型包括观察行为、效应行为以及伴随行为;所述观察行为用于实时观察当前环境状态;所述效应行为用于根据所述当前环境状态,改变当前环境状态;所述伴随行为用于当所述目标物体被遮挡时,确定最优效应行为,并基于根据所述观察行为规划下一步最优效应行为,自适应更新所述效应行为;根据所述伴随行为模型规划自主机器人的行为路径,完成所述机器人任务。本发明专利技术能够高效实现任务并快速响应环境变化。

【技术实现步骤摘要】
一种自主机器人的二阶段自适应行为规划方法及系统
本专利技术涉及人工智能领域,特别是涉及一种自主机器人的二阶段自适应行为规划方法及系统。
技术介绍
近年来,随着人工智能、自动化技术等的快速发展,机器人的硬件功能日趋完善,开始逐步从封闭的工业车间走向家庭服务、医疗看护等开放环境。开放环境下的机器人通过传感器和效应器,与环境进行持续交互,根据当前环境和任务需求自主规划和调整其行为,这一类机器人称为“自主机器人”。自主机器人本质上是一类硬件异构化、软件密集型和自主化决策的信息物理系统。自主机器人由核心的软件系统驱动,自主决策机器人的行为(如根据任务需求和环境变化规划行为),并驱动机器人硬件在开放环境下自主、安全、高效和健壮运行,因而软件系统是自主机器人系统的核心和关键。本专利技术重点关注开放环境下自主机器人软件的自主行为规划问题。开放环境一方面具有动态性。动态性指环境中存在其他智能体的行为改变环境状态,环境状态往往动态可变且不可预测,容易使机器人预先规划的行为失效,即上一时刻规划产生的行为在当前变化后的环境下不再适用,行为执行结果不符合预期效果,使得任务无法成功达成。例如,当机器人观察到目标物体时,其规划产生一条最优路线使机器人能够最快到达目标物体处。在机器人移动过程中,目标物体突然被人为移动至其他位置。此时,目标物体的位置变化(环境状态变化)使得机器人前一时刻规划的路线不再适用,最终无法成功到达目标物体处。另一方面,开放环境对于机器人往往不可完全观察。由于传感器硬件偏差、环境遮挡等因素,机器人通常无法准确观察到当前环境的所有状态信息。基于部分可知的环境信息,机器人规划产生的行为也可能不适用于实际环境状态,导致无法达成任务。例如,当目标物体被遮挡,其可见部分与相邻物体相似,机器人由于只能观察到目标物体的部分信息,可能将相邻物体误判为目标物体,规划产生的行进路线无法使其成功到达目标物体处。开放环境的上述特点使得规划产生的机器人行为无法有效地达成任务。因此,如何根据任务以及行为执行需要来观察环境以增强任务规划的高效性和行为执行的反应性,成为自主机器人软件研究领域面临的重要挑战。在机器人任务规划领域,经典的行为树规划方法(behaviortreeplanning)针对环境变化通常实施一次性规划,其规划产生的行为通常为一组预定义规则行为,当环境某一状态变化触发相应事件则规划产生相应行为执行,其执行假设能确定性地改变环境状态,并有效达成任务。例如,针对上述场景,经典行为规划方法产生一组预定义的确定性行为序列,如当目标物体被移动至左侧,机器人则确定性地移动至左侧位置。然而,当机器人对环境状态的观察结果存在不确定性,经典行为树规划方法往往无法有效应对不可完全观察的环境变化。经典行为树规划方法的局限性在于缺乏对环境状态的实时观察和自适应规划。
技术实现思路
本专利技术的目的是提供一种自主机器人的二阶段自适应行为规划方法及系统,以解决经典的行为树规划方法缺乏对环境状态的实时观察和自适应规划的问题。为实现上述目的,本专利技术提供了如下方案:一种自主机器人的二阶段自适应行为规划方法,包括:获取机器人任务以及当前环境状态;所述机器人任务包括移动目标物体至目标区域任务以及抓捕目标物体任务;所述当前环境状态包括目标物体被遮挡以及目标物体未被遮挡;根据所述机器人任务以及所述当前环境状态建立伴随行为模型;所述伴随行为模型包括观察行为、效应行为以及伴随行为;所述观察行为用于实时观察当前环境状态;所述效应行为用于根据所述当前环境状态,改变当前环境状态;所述伴随行为用于当所述目标物体被遮挡时,确定最优效应行为,并基于根据所述观察行为规划下一步最优效应行为,自适应更新所述效应行为;根据所述伴随行为模型规划自主机器人的行为路径,完成所述机器人任务。可选的,所述根据所述机器人任务以及所述当前环境状态建立伴随行为模型,具体包括:根据所述机器人任务构建初始行为树;所述初始行为树将任一所述当前环境状态作为条件节点;当所述条件节点表示为目标物体被遮挡时,扩展所述条件节点为一个伴随策略子树;在所述伴随策略子树上,将所述条件节点以及伴随节点作为一个回退节点的两个子节点;根据所述伴随节点创建效应行为子节点以及观察行为子节点;所述伴随节点表征所述伴随行为;所述效应行为子节点表征所述效应行为,所述观察行为子节点表征所述观察行为;所述回退节点用于触发所述伴随节点以及所述伴随节点创建的效应行为子节点和观察行为子节点;遍历所有的所述条件节点,生成多个伴随策略子树;根据多个所述伴随策略子树构建伴随行为模型。可选的,所述根据所述伴随节点创建效应行为子节点以及观察行为子节点,具体包括:对于任一所述条件节点表示为目标物体被遮挡时,将所述条件节点对应的当前环境状态初始为信念状态;所述信念状态为目标物体被遮挡的当前环境状态用状态空间上的信念分布表示;根据所述信念状态构建信念状态树,所述初始的信念状态为根节点;当所述条件节点表示为目标物体被遮挡时,所述伴随节点扩展所述信念状态树至设定深度,计算每一信念节点下执行不同效应行为的累计奖励值,并将所述累计奖励值更新至所述根节点;所述信念节点为所述信念状态树上的任一节点;基于当前信念状态,利用所述伴随节点选取累计奖励值最大的效应行为作为最优效应行为;将所述最优效应行为创建为一个效应行为子节点,并执行所述最优效应行为;当所述最优效应行为成功执行,触发执行与所述效应行为子节点相邻的观察行为子节点。可选的,所述当所述最优效应行为成功执行,触发执行与所述效应行为子节点相邻的观察行为子节点,之后还包括:获取所述观察行为子节点观察的当前环境状态以及前一时刻的信念状态;利用所述伴随节点,根据所述前一时刻的信念状态、所述最优效应行为以及所述观察行为子节点观察的当前环境状态更新当前信念状态。可选的,所述利用所述伴随节点,根据所述前一时刻的信念状态、所述最优效应行为以及所述观察行为子节点观察的当前环境状态更新当前信念状态,之后还包括:利用所述伴随节点,根据更新后的当前信念状态规划下一最优效应动作,并创建新的效应行为子节点以及新的观察行为子节点。一种自主机器人的二阶段自适应行为规划系统,包括:机器人任务以及当前环境状态获取模块,用于获取机器人任务以及当前环境状态;所述机器人任务包括移动目标物体至目标区域任务以及抓捕目标物体任务;所述当前环境状态包括目标物体被遮挡以及目标物体未被遮挡;伴随行为模型建立模块,用于根据所述机器人任务以及所述当前环境状态建立伴随行为模型;所述伴随行为模型包括观察行为、效应行为以及伴随行为;所述观察行为用于实时观察当前环境状态;所述效应行为用于根据所述当前环境状态,改变当前环境状态;所述伴随行为用于当所述目标物体被遮挡时,确定最优效应行为,并基于根据所述观察行为规划下一步最优效应行为,自适应更新所述效应行为;行为路径规划模块,用于根据所述伴随行为模型规划本文档来自技高网
...

【技术保护点】
1.一种自主机器人的二阶段自适应行为规划方法,其特征在于,包括:/n获取机器人任务以及当前环境状态;所述机器人任务包括移动目标物体至目标区域任务以及抓捕目标物体任务;所述当前环境状态包括目标物体被遮挡以及目标物体未被遮挡;/n根据所述机器人任务以及所述当前环境状态建立伴随行为模型;所述伴随行为模型包括观察行为、效应行为以及伴随行为;所述观察行为用于实时观察当前环境状态;所述效应行为用于根据所述当前环境状态,改变当前环境状态;所述伴随行为用于当所述目标物体被遮挡时,确定最优效应行为,并基于根据所述观察行为规划下一步最优效应行为,自适应更新所述效应行为;/n根据所述伴随行为模型规划自主机器人的行为路径,完成所述机器人任务。/n

【技术特征摘要】
1.一种自主机器人的二阶段自适应行为规划方法,其特征在于,包括:
获取机器人任务以及当前环境状态;所述机器人任务包括移动目标物体至目标区域任务以及抓捕目标物体任务;所述当前环境状态包括目标物体被遮挡以及目标物体未被遮挡;
根据所述机器人任务以及所述当前环境状态建立伴随行为模型;所述伴随行为模型包括观察行为、效应行为以及伴随行为;所述观察行为用于实时观察当前环境状态;所述效应行为用于根据所述当前环境状态,改变当前环境状态;所述伴随行为用于当所述目标物体被遮挡时,确定最优效应行为,并基于根据所述观察行为规划下一步最优效应行为,自适应更新所述效应行为;
根据所述伴随行为模型规划自主机器人的行为路径,完成所述机器人任务。


2.根据权利要求1所述的自主机器人的二阶段自适应行为规划方法,其特征在于,所述根据所述机器人任务以及所述当前环境状态建立伴随行为模型,具体包括:
根据所述机器人任务构建初始行为树;所述初始行为树将任一所述当前环境状态作为条件节点;
当所述条件节点表示为目标物体被遮挡时,扩展所述条件节点为一个伴随策略子树;
在所述伴随策略子树上,将所述条件节点以及伴随节点作为一个回退节点的两个子节点;
根据所述伴随节点创建效应行为子节点以及观察行为子节点;所述伴随节点表征所述伴随行为;所述效应行为子节点表征所述效应行为,所述观察行为子节点表征所述观察行为;所述回退节点用于触发所述伴随节点以及所述伴随节点创建的效应行为子节点和观察行为子节点;
遍历所有的所述条件节点,生成多个伴随策略子树;
根据多个所述伴随策略子树构建伴随行为模型。


3.根据权利要求2所述的自主机器人的二阶段自适应行为规划方法,其特征在于,所述根据所述伴随节点创建效应行为子节点以及观察行为子节点,具体包括:
对于任一所述条件节点表示为目标物体被遮挡时,将所述条件节点对应的当前环境状态初始为信念状态;所述信念状态为目标物体被遮挡的当前环境状态用状态空间上的信念分布表示;
根据所述信念状态构建信念状态树,所述初始的信念状态为根节点;
当所述条件节点表示为目标物体被遮挡时,所述伴随节点扩展所述信念状态树至设定深度,计算每一信念节点下执行不同效应行为的累计奖励值,并将所述累计奖励值更新至所述根节点;所述信念节点为所述信念状态树上的任一节点;
基于当前信念状态,利用所述伴随节点选取累计奖励值最大的效应行为作为最优效应行为;
将所述最优效应行为创建为一个效应行为子节点,并执行所述最优效应行为;
当所述最优效应行为成功执行,触发执行与所述效应行为子节点相邻的观察行为子节点。


4.根据权利要求3所述的自主机器人的二阶段自适应行为规划方法,其特征在于,所述当所述最优效应行为成功执行,触发执行与所述效应行为子节点相邻的观察行为子节点,之后还包括:
获取所述观察行为子节点观察的当前环境状态以及前一时刻的信念状态;
利用所述伴随节点,根据所述前一时刻的信念状态、所述最优效应行为以及所述观察行为子节点观察的当前环境状态更新当前信念状态。


5.根据权利要求4所述的自主机器人的二阶段自适应行为规划方法,其特征在于,所述利用所述伴随节点,根据所述前一时刻的信念状态、所述最优效应行为以及所述观察行为子节点观察的当前环境状态更新当前信念状态,之后还包括:
利用所述伴随节点,根据更新后的当前信念状态规划下一最优效应动作,并创建新的效应行为子节点以及新的观察行为子节点。


6.一种自主机器人的二阶段自适应行为规划系统,其特征在于,包括:
机器人任务以及当前环境状态获取模块,用于获取机器人任务以...

【专利技术属性】
技术研发人员:毛新军杨硕王硕肖怀宇
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1