行为决策方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36607073 阅读:29 留言:0更新日期:2023-02-04 18:31
本发明专利技术提供一种行为决策方法、装置、电子设备及存储介质,其中方法包括:确定当前地图,以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹;基于所述各行为策略下的行人轨迹和机器人轨迹,以及所述当前地图,确定所述各行为策略下的轨迹特征向量;基于评估代价函数,应用权重向量和所述各行为策略下的轨迹特征向量,对所述各行为策略进行评估,得到最优策略;所述权重向量是基于由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的,实现了评估代价函数根据轨迹特征向量和权重向量进行策略评估的同时,避免了人工调整代价函数的特征权重,从而提升了复杂场景的适应能力。而提升了复杂场景的适应能力。而提升了复杂场景的适应能力。

【技术实现步骤摘要】
行为决策方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种行为决策方法、装置、电子设备及存储介质。

技术介绍

[0002]随着机器人技术的发展,越来越多的机器人工作在与人类共存的场景中,机器人在人类的生活、工作场所中运动时,需要适应复杂、动态的场景,并对人类的活动进行避让。近年来,一些研究提出了用于机器人的多策略决策模型,通过对未来场景状态进行前向模拟,并设计代价函数来评价和选择策略,具有较好的实时性。
[0003]但当前的机器人行为决策方法虽然能够根据场景变化自动调整行动策略,但是其用来评估场景的代价函数较为简单,未考虑环境中机器人与行人的避障距离等舒适性因素。此外,现有方法主要依赖人工调整代价函数中的特征权重,对复杂场景的适应能力不足。

技术实现思路

[0004]本专利技术提供一种行为决策方法、装置、电子设备及存储介质,用以解决现有技术中评估场景的代价函数简单并需要人工调整权重导致对复杂场景的适应能力不足的缺陷。
[0005]本专利技术提供一种行为决策方法,包括:
[0006]确定当前地图,以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹;
[0007]基于所述各行为策略下的行人轨迹和机器人轨迹,以及所述当前地图,确定所述各行为策略下的轨迹特征向量;
[0008]基于评估代价函数,应用权重向量和所述各行为策略下的轨迹特征向量,对所述各行为策略进行评估,得到最优策略;所述权重向量是基于由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的。
[0009]根据本专利技术提供的一种行为决策方法,所述基于所述各行为策略下的行人轨迹和机器人轨迹,确定所述各行为策略下的轨迹特征向量,包括:
[0010]基于所述各行为策略下的机器人轨迹和所述当前地图,确定所述各行为策略下所述未来预设连续多个时刻内机器人与障碍物最小距离;
[0011]基于所述各行为策略下的行人轨迹和机器人轨迹,确定所述各行为策略下所述未来预设连续多个时刻内机器人与行人最小距离;
[0012]基于所述各行为策略下的机器人轨迹中最新轨迹位置和预设目标点位置,确定所述各行为策略下机器人与所述预设目标点距离;
[0013]基于所述各行为策略下的机器人轨迹和预设全局路径,确定所述各行为策略下机器人与预设全局路径最大偏差距离;
[0014]基于所述各行为策略下与障碍物最小距离、所述各行为策略下与行人最小距离、
所述各行为策略下与所述预设目标点距离和所述各行为策略下与预设全局路径最大偏差距离,确定所述各行为策略下的轨迹特征向量。
[0015]根据本专利技术提供的一种行为决策方法,所述权重向量的训练步骤如下:
[0016]确定当前权重向量和所述样本对;
[0017]基于所述样本对中的样本机器人示例轨迹的起始位置和结束位置,所述样本对中的样本行人轨迹,以及所述当前权重向量,应用所述评估代价函数,确定机器人规划轨迹;
[0018]基于所述样本对中的样本机器人示例轨迹和所述样本对中的样本行人轨迹,确定第一轨迹特征向量;并基于所述机器人规划轨迹和所述样本对中的样本行人轨迹,确定第二轨迹特征向量;
[0019]基于所述第一轨迹特征向量和所述第二轨迹特征向量,确定所述当前权重向量的梯度;并基于所述梯度对所述当前权重向量进行迭代调整,直至所述当前权重向量收敛,得到所述权重向量。
[0020]根据本专利技术提供的一种行为决策方法,所述各行为策略下的行人轨迹的确定步骤包括,包括:
[0021]确定当前预测时刻和所述各行为策略中任一策略下的行人轨迹;
[0022]基于所述当前预测时刻的前一时刻所述任一策略下行人位置、所述前一时刻所述任一策略下机器人位置和所述当前地图,应用所述行人轨迹预测模型进行预测,得到所述任一策略下当前预测时刻的行人位置;
[0023]将所述行人位置加入所述任一策略下的行人轨迹,并将所述当前预测时刻的下一时刻作为所述当前预测时刻进行迭代,直至所述当前预测时刻为所述未来预设连续多个时刻的结束时刻,得到所述任一策略下的行人轨迹。
[0024]根据本专利技术提供的一种行为决策方法,所述各行为策略下的机器人轨迹的确定步骤包括,包括:
[0025]确定当前规划时刻和所述各行为策略中任一策略下的机器人轨迹;
[0026]基于所述当前规划时刻的前一时刻所述任一策略下机器人位置和所述任一策略,应用所述机器人轨迹规划模型进行规划,得到所述任一策略下当前规划时刻的机器人位置;
[0027]将所述机器人位置加入所述任一策略下的机器人轨迹,并将所述任一策略下的当前规划时刻的下一时刻作为所述任一策略下的当前规划时刻进行迭代,直至所述当前规划时刻为所述未来预设连续多个时刻的结束时刻,得到所述任一策略下的机器人轨迹。
[0028]根据本专利技术提供的一种行为决策方法,所述样本对中的样本机器人示例轨迹是基于记录在仿真环境中由人操作机器人从起始位置到结束位置的运动轨迹;所述仿真环境包括所述起始位置、所述结束位置和多个自主运动行人的轨迹。
[0029]根据本专利技术提供的一种行为决策方法,所述各行为策略包括:避障、行人跟随和停止。
[0030]本专利技术还提供一种行为决策装置,包括:
[0031]确定模块,用于确定当前地图,以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹;
[0032]特征模块,用于基于所述各行为策略下的行人轨迹和机器人轨迹,以及所述当前
地图,确定所述各行为策略下的轨迹特征向量;
[0033]评估模块,用于基于评估代价函数,应用权重向量和所述各行为策略下的轨迹特征向量,对所述各行为策略进行评估,得到最优策略;所述权重向量是由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的。
[0034]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述行为决策方法。
[0035]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述行为决策方法。
[0036]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述行为决策方法。
[0037]本专利技术提供的行为决策方法、装置、电子设备及存储介质,通过在评估代价函数中增加各行为策略下的轨迹特征向量,并且通过逆向训练得到权重向量,实现了评估代价函数根据轨迹特征向量和权重向量进行策略评估的同时,避免了人工调整代价函数的特征权重,从而提升了复杂场景的适应能力。
附图说明
[0038]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种行为决策方法,其特征在于,包括:确定当前地图,以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹;基于所述各行为策略下的行人轨迹和机器人轨迹,以及所述当前地图,确定所述各行为策略下的轨迹特征向量;基于评估代价函数,应用权重向量和所述各行为策略下的轨迹特征向量,对所述各行为策略进行评估,得到最优策略;所述权重向量是基于由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的。2.根据权利要求1所述的行为决策方法,其特征在于,所述基于所述各行为策略下的行人轨迹和机器人轨迹,确定所述各行为策略下的轨迹特征向量,包括:基于所述各行为策略下的机器人轨迹和所述当前地图,确定所述各行为策略下所述未来预设连续多个时刻内机器人与障碍物最小距离;基于所述各行为策略下的行人轨迹和机器人轨迹,确定所述各行为策略下所述未来预设连续多个时刻内机器人与行人最小距离;基于所述各行为策略下的机器人轨迹中最新轨迹位置和预设目标点位置,确定所述各行为策略下机器人与所述预设目标点距离;基于所述各行为策略下的机器人轨迹和预设全局路径,确定所述各行为策略下机器人与预设全局路径最大偏差距离;基于所述各行为策略下所述未来预设连续多个时刻机器人与障碍物最小距离,所述各行为策略下所述未来预设连续多个时刻机器人与行人最小距离,所述各行为策略下机器人与所述预设目标点距离,以及所述各行为策略下机器人与预设全局路径最大偏差距离,确定所述各行为策略下的轨迹特征向量。3.根据权利要求1或2所述的行为决策方法,其特征在于,所述权重向量的训练步骤如下:确定当前权重向量和所述样本对;基于所述样本对中的样本机器人示例轨迹的起始位置和结束位置,所述样本对中的样本行人轨迹,以及所述当前权重向量,应用所述评估代价函数,确定机器人规划轨迹;基于所述样本对中的样本机器人示例轨迹和所述样本对中的样本行人轨迹,确定第一轨迹特征向量;并基于所述机器人规划轨迹和所述样本对中的样本行人轨迹,确定第二轨迹特征向量;基于所述第一轨迹特征向量和所述第二轨迹特征向量,确定所述当前权重向量的梯度;并基于所述梯度对所述当前权重向量进行迭代调整,直至所述当前权重向量收敛,得到所述权重向量。4.根据权利要求1或2所述的行为决策方法,其特征在于,所述各行为策略下的行人轨迹的确定步骤包括,包括:确定当前预测时刻和所述各行为策略中任一策略下的行人轨迹;基于所述当前预...

【专利技术属性】
技术研发人员:孙世颖赵晓光张宇佳谭民
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1