一种实现场景自适应的人群运动路径规划方法及系统技术方案

技术编号:33630708 阅读:16 留言:0更新日期:2022-06-02 01:34
本公开提出了一种实现场景自适应的人群运动路径规划方法及系统,将获取的场景信息以及人群信息输入至训练好的多智能体深度强化学习框架模型进行人群运动规划路径;所述多智能体深度强化学习框架模型中以每个人作为一个智能体,包括顶层规划模型和底层规划模型;顶层规划模型每个智能体以距离最近的出口作为疏散目标,利用深度确定性策略梯度算法规划,得到全局规划路径;底层规划模型以顶层规划模型的输出为状态值,以避免碰撞为目标进行局部规划,修正全局规划路径得到人群运动规划路径。采用MADDPG算法,将全局路径规划和局部避免碰撞分开处理,并使用多智能体深度强化学习方法以适应于场景的变化,规划出更为合理的人群运动路径。人群运动路径。人群运动路径。

【技术实现步骤摘要】
一种实现场景自适应的人群运动路径规划方法及系统


[0001]本公开涉及人群运动路径规划相关
,具体的说,是涉及一种实现场景自适应的人群运动路径规划方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,并不必然构成在先技术。
[0003]随着科技和经济的不断发展、公共建筑和设施的不断增多,在地铁站、机场、医院等公共区域内的人流量也更加密集。当发生紧急情况时,如火灾、地震等,由于应急方案存在一定缺陷,导致人群拥挤、踩踏的意外情况时有发生。因此,发生灾难时,规划人群在公共场所内真实的运动路径有助于提前规避风险,保障人民生命财产安全。
[0004]在人群运动路径规划中,通常对规划方法的灵活性和真实性要求较高。专利技术人发现,传统人群路径规划方法往往使用预先定义的场景和规则,降低了人群运动的真实度。基于数据驱动的路径规划方法常被用来增强人群路径规划的真实度。然而,基于数据驱动的方法通常从特定场景中提取人群运动数据,并将训练好的模型应用到同一场景,当场景中障碍物数量或位置发生变化时,基于数据驱动的方法不能适应场景的变化,产生无碰撞路径,灵活性较低。

技术实现思路

[0005]本公开为了解决上述问题,提出了一种实现场景自适应的人群运动路径规划方法及系统,采用MADDPG(Multi

Agent Deep Deterministic Policy Gradient,多智能体深度确定性策略梯度)算法,将全局路径规划和局部避免碰撞分开处理,并使用多智能体深度强化学习方法以适应于场景的变化,规划出更为合理的人群运动路径。
[0006]为了实现上述目的,本公开采用如下技术方案:
[0007]一个或多个实施例提供了一种实现场景自适应的人群运动路径规划方法,包括如下步骤:
[0008]获取场景信息以及人群参数信息;
[0009]将获取的信息输入至训练好的多智能体深度强化学习框架模型,得到人群运动规划路径;
[0010]所述多智能体深度强化学习框架模型中以每个人作为一个智能体,包括顶层规划模型和底层规划模型;顶层规划模型每个智能体以距离最近的出口作为疏散目标,利用深度确定性策略梯度算法进行全局路径规划,得到智能体的全局规划路径;底层规划模型以顶层规划模型的输出为状态值,以避免碰撞为目标进行局部规划,修正全局规划路径得到人群运动规划路径。
[0011]一个或多个实施例提供了一种实现场景自适应的人群运动路径规划系统,包括:
[0012]获取模块,被配置为用于获取场景信息以及人群参数信息;
[0013]规划模块,被配置为用于将获取的信息输入至训练好的多智能体深度强化学习框架模型,得到人群运动规划路径;
[0014]所述多智能体深度强化学习框架模型中以每个人作为一个智能体,包括顶层规划模型和底层规划模型;顶层规划模型每个智能体以距离最近的出口作为疏散目标,利用深度确定性策略梯度算法进行全局路径规划,得到智能体的全局规划路径;底层规划模型以顶层规划模型的输出为状态值,以避免碰撞为目标进行局部规划,修正全局规划路径得到人群运动规划路径。
[0015]一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。
[0016]与现有技术相比,本公开的有益效果为:
[0017]本公开将全局路径规划和局部避免碰撞分开处理,并使用多智能体深度强化学习方法以适应于场景的变化,规划出更为合理的人群运动路径。基于多级的深度强化学习框架并应用到人群运动模拟中,分别处理路径规划和碰撞避免,提高了方法的泛化性、灵活性。
[0018]本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。
附图说明
[0019]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。
[0020]图1是本公开实施例1所述的人群运动路径规划方法流程图;
[0021]图2是本公开实施例1的模拟双出口的简单仿真场景的人群疏散场景仿真模型;
[0022]图3是对图2的场景进行人群运动路径规划的疏散效果图;
[0023]图4是本公开实施例1的模拟四出口的复杂仿真场景的人群疏散场景仿真模型;
[0024]图5是对图4的场景进行人群运动路径规划的疏散效果图;
[0025]图6是本公开实施例1中底层规划的网络训练示例。
具体实施方式:
[0026]下面结合附图与实施例对本公开作进一步说明。
[0027]应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。
[0028]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
[0029]实施例1
[0030]在一个或多个实施方式公开的技术方案中,如图1所示,一种实现场景自适应的人
群运动路径规划方法,包括如下步骤:
[0031]步骤1、获取场景信息以及人群参数信息;
[0032]步骤2、将获取的信息输入至训练好的多智能体深度强化学习框架模型,得到人群运动规划路径;
[0033]所述多智能体深度强化学习框架模型中以每个人作为一个智能体,包括顶层规划模型和底层规划模型;顶层规划模型以每个智能体以距离最近的出口作为疏散目标,利用深度确定性策略梯度算法进行全局路径规划,得到智能体的目标位置;底层规划模型以顶层规划模型的输出为状态值,以避免碰撞为目标进行局部规划,得到人群运动规划路径。
[0034]本实施例将全局路径规划和局部避免碰撞分开处理,并使用多智能体深度强化学习方法以适应于场景的变化,规划出更为合理的人群运动路径。基于两级的深度强化学习框架并应用到人群运动模拟中,分别处理路径规划和碰撞避免,将深度强化学习方法分别应用于两级规划,提高了方法的泛化性、灵活性。
[0035]其中,场景信息可以包括:疏散出口的数量、位置和大小,障碍物的数量、位置、大小和形状。
[0036]人群参数信息可以包括:人群的位置、速度(统一设为0)、目标出口位置其中,目标出口位置可以为距离当前智能体最近的出口。
[0037]将获取的信息输入至训练好的多智能体深度强化学习框架模型,得到人群运动规划路径的方法,包括如下步骤:
[0038]步骤21、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现场景自适应的人群运动路径规划方法,其特征在于,包括如下步骤:获取场景信息以及人群参数信息;将获取的信息输入至训练好的多智能体深度强化学习框架模型,得到人群运动规划路径;所述多智能体深度强化学习框架模型中以每个人作为一个智能体,包括顶层规划模型和底层规划模型;顶层规划模型以智能体距离最近的出口作为疏散目标,利用深度确定性策略梯度算法规划,得到全局规划路径;底层规划模型以顶层规划模型的输出为状态值,以避免碰撞为目标进行局部规划,修正全局规划路径得到人群运动规划路径。2.如权利要求1所述的一种实现场景自适应的人群运动路径规划方法,其特征在于:将获取的信息输入至训练好的多智能体深度强化学习框架模型,得到人群运动规划路径的方法,包括如下步骤:根据获取的场景信息以及人群参数信息,进行多智能体深度强化学习框架模型内的参数的初始化设置;利用深度确定性策略梯度算法对单个智能体进行路径规划,使得智能体的移动路径指向目标出口,得到全局规划路径;以使智能体避免与其他智能体发生碰撞为目标,采用相对速度障碍算法融合多智能体深度确定性策略梯度算法进行规划,对全局规划路径进行修正,得到最终的人群运动规划路径。3.如权利要求1所述的一种实现场景自适应的人群运动路径规划方法,其特征在于:顶层规划模型的训练过程,包括如下步骤:根据获取的场景信息以及人群参数信息,设定顶层规划模型智能体的状态和动作空间;从获取的真实视频中提取行人的运动属性;设定轨迹匹配器用于提取智能体的状态;设定顶层规划的智能体的奖励函数,激励智能体做出预期动作;每个智能体对应一个Actor网络与一个Critic网络,分别负责策略估计和价值估计,采用深度确定性策略梯度算法训练Critic网络和Actor网络的模型参数,根据设定迭代次数进行迭代训练,以智能体获取的回报值最大为目标,直至训练出每个智能体的奖励值收敛,得到最终的模型参数。4.如权利要求3所述的一种实现场景自适应的人群运动路径规划方法,其特征在于:顶层规划的智能体的奖励函数:当智能体与障碍物碰撞,奖励值为负数;当智能体到达总体目标位置奖励值为正数;智能体下一时刻比当前时刻更接近总体目标位置,奖励为正奖励,否则为负奖励;或者,智能体的状态包括智能体的位置、速度、目标位置、障碍物距离;智能体的动作空间具体为智能体位置坐标变换的二维的连续空间;或者,运动属性包括智能体每一时刻的纵坐标位置、横坐标位置、纵坐标速度和横坐标速度。5.如权利要求1所述的一种实现场景自适应的人群运动路径规划方法,其特征在于:底层规划模型的训练过程,包括如下步骤:
接收顶层规划模型传输的智能体下一时刻的目标位置,并将其作为底层规划智能体的...

【专利技术属性】
技术研发人员:蔡秀花张政陆佃杰张桂娟
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1