基于深度强化学习算法的人群疏散仿真方法及系统技术方案

技术编号:27060411 阅读:31 留言:0更新日期:2021-01-15 14:40
本公开公开的基于深度强化学习算法的人群疏散仿真方法及系统,包括:根据场景信息以及人群参数信息,进行疏散场景仿真模型内的参数的初始化设置;对人群进行分组,并划分组内领导者;各领导者选取最佳出口作为疏散目标,利用改进多智能体深度确定性策略梯度算法进行全局路径规划,获取最优疏散路径;组内普通行人跟随该组内领导者运动。在原本的多智能体深度确定性策略梯度算法的基础上引入对策略进行优化的交叉熵方法与对样本进行优化的数据剪枝算法,优化了算法的结果,加快了算法的收敛速度,能够更好地指导人群进行疏散,提高疏散效率。

【技术实现步骤摘要】
基于深度强化学习算法的人群疏散仿真方法及系统
本公开涉及基于深度强化学习算法的人群疏散仿真方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。随着经济发展程度的不断提高,人们对于日常生活的安全需求也在不断提高。紧急情况下的人群疏散一直是不可忽视的话题。由于人群内微小的扰动都会对人群的快速疏散造成很大影响,安全隐患较大,如果不能对人群进行有效的控制,很容易导致人群拥挤踩踏事件。为此,通过模拟真实的人群疏散情况,为行人提供合理的疏散方案,制定最佳的疏散路径减少疏散时间,从而提前规避潜在的人群拥堵踩踏风险,具有重要意义。本研究旨在通过制定最佳的路径规划方案,提高疏散效率,预防各种突发情况下的人员伤亡。人群疏散仿真模型主要有两种,宏观模型和微观模型。宏观模型从整体出发,不考虑个体行为的局部细节信息。微观模型从个体的角度考虑每个个体与环境的交互,可以弥补宏观模型对行人细节描述的不足。关于微观疏散模型,有社会力模型、元胞自动机模型、格子气模型等微观模型分类,它们从单个行人的角度进行建模,考虑到了行人流中个体的种种特征,从而可以更加详细的描述与反映复杂的行人运动。这其中,社会力模型不仅充分考虑到了人群的各种群体行为特征,而且比其他离散模型具有更加真实且精确的结果。但是原始社会力模型并没有考虑到人群疏散中存在的“群组”,“小团体”现象,而且当社会力模型运用于大规模人群疏散仿真时,疏散效率明显下降。由于传统的微观模型运用在大规模人群疏散仿真时效果不好,所以引入了路径规划来解决这一问题。现阶段的研究大多将强化学习与路径规划结合起来,但由于人群运动是一个连续的过程,所以使用强化学习进行仿真时,会产生维度爆炸问题导致算法效率下降。深度强化学习不仅继承了强化学习的优点,还在其基础上引入了神经网络使其可以解决具有高维度状态空间的决策问题,使其相较于强化学习可以更加适用于人群疏散的应用。其中最为典型的就是多智能体深度确定性策略梯度算法(Multi-AgentDeepDeterministicPolicyGradient),但是由于算法的复杂性过高,导致算法的收敛速度较慢,并且由于环境的复杂性,算法很难得到一个良好的结果。
技术实现思路
本公开为了解决上述问题,提出了基于深度强化学习算法的人群疏散仿真方法及系统,在原本的多智能体深度确定性策略梯度算法的基础上引入对策略进行优化的交叉熵方法(Cross-EntropyMethod)与对样本进行优化的数据剪枝算法(DataPruningAlgorithm),优化了算法的结果,加快了算法的收敛速度,能够更好地指导人群进行疏散,提高疏散效率。为实现上述目的,本公开采用如下技术方案:在一个或多个实施例中,提出了基于深度强化学习算法的人群疏散仿真方法,包括:根据场景信息以及人群参数信息,进行疏散场景仿真模型内的参数的初始化设置;对人群进行分组,并划分组内领导者;各领导者选取最佳出口作为疏散目标,利用改进多智能体深度确定性策略梯度算法进行全局路径规划,获取最优疏散路径;组内普通行人跟随该组内领导者运动。进一步的,将每一组领导者视为智能体,利用改进多智能体深度确定性策略梯度算法进行全局路径规划,包括:设定智能体的可移动方向和当前位置;设定Critic网络的奖励回报机制,对智能体的选择给与相应奖励;每个智能体对应一个Actor网络与一个Critic网络,设置单独的经验池存放所有智能体每一步的经验,训练Critic网络和Actor网络的模型参数,使用N个回合重复训练步骤,以智能体获取的回报值最大为目标,直至训练出每个智能体的优化路径;对智能体的优化路径进行策略优化,获取最优疏散路径。进一步的,在训练过程中,使用数据剪枝算法对经验池进行优化。进一步的,采用交叉熵方法对智能体的优化路径进行策略优化,获取最优的疏散路径。在一个或多个实施例中,提出了基于策略优化的深度强化学习算法的人群疏散仿真系统,包括:初始化设置模块,根据场景信息以及人群参数信息,进行疏散场景仿真模型内的参数的初始化设置;组内领导选取模块,实现对人群进行分组,选取组内领导者;疏散仿真模块,以每个领导者选取最佳出口作为疏散目标,利用改进多智能体深度确定性策略梯度算法进行全局路径规划,获取最优疏散路径,组内普通行人跟随公该组内领导者运动。在一个或多个实施例中,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成基于深度强化学习算法的人群疏散仿真方法所述的步骤。在一个或多个实施例中,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成基于深度强化学习算法的人群疏散仿真方法所述的步骤。与现有技术相比,本公开的有益效果为:1、本公开考虑到现实情况中人群疏散过程人们存在的从众心理以及兴奋程度对人群的影响,将群组聚合力以及兴奋度的概念引入社会力模型中,与以往的模型相比,改进的社会力模型考虑了行人在疏散运动中的心理变化,使疏散仿真更加真实。2、本公开考虑到人群疏散大规模计算的难度,采用分组与选择组中领导的方法,由改进的多智能体深度确定性策略梯度算法对领导者进行全局路径规划,组内行人使用改进后的社会力模型进行跟随运动,大大减少了计算量。3、本公开将数据剪枝算法应用到多智能体深度确定性策略梯度算法中,提高了算法的性能,并通过加入交叉熵方法对算法策略进行优化,提高了算法的收敛速度,优化了算法的结果,提高了人群疏散的效率。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为本公开实施例1的流程图;图2为本公开实施例1中改进多智能体深度确定性策略梯度算法的学习结构示意图;图3为本公开实施例1人群疏散仿真场景图;图4为本公开实施例1人群初始化后人群的随机分布情况图;图5为本公开实施例1人群疏散示意图;图6为本公开实施例1人群疏散接近出口的移动示意图。具体实施方式:下面结合附图与实施例对本公开作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等本文档来自技高网
...

【技术保护点】
1.基于深度强化学习算法的人群疏散仿真方法,其特征在于,包括:/n根据场景信息以及人群参数信息,进行疏散场景仿真模型内的参数的初始化设置;/n对人群进行分组,并划分组内领导者;/n各领导者选取最佳出口作为疏散目标,利用改进多智能体深度确定性策略梯度算法进行全局路径规划,获取最优疏散路径;/n组内普通行人跟随该组内领导者运动。/n

【技术特征摘要】
1.基于深度强化学习算法的人群疏散仿真方法,其特征在于,包括:
根据场景信息以及人群参数信息,进行疏散场景仿真模型内的参数的初始化设置;
对人群进行分组,并划分组内领导者;
各领导者选取最佳出口作为疏散目标,利用改进多智能体深度确定性策略梯度算法进行全局路径规划,获取最优疏散路径;
组内普通行人跟随该组内领导者运动。


2.如权利要求1所述的基于深度强化学习算法的人群疏散仿真方法,其特征在于,将各领导者视为智能体,利用改进多智能体深度确定性策略梯度算法进行全局路径规划,包括:
设定智能体的可移动方向和当前位置;
设定Critic网络的奖励回报机制,对智能体的选择给与相应奖励;
每个智能体对应一个Actor网络与一个Critic网络,设置单独的经验池存放所有智能体每一步的经验,
训练Critic网络和Actor网络的模型参数,使用N个回合重复训练步骤,以智能体获取的回报值最大为目标,直至训练出每个智能体的优化路径;
根据获得的智能体的优化路径对改进多智能体深度确定性策略梯度算法进行策略优化;
利用优化后策略,获取智能体的最优疏散路径。


3.如权利要求2所述的基于深度强化学习算法的人群疏散仿真方法,其特征在于,在训练过程中,使用数据剪枝算法对经验池进行优化,具体为:计算输入经验池的一组数据的唯一性值,当计算的唯一性值大于设定阈值时,将该组数据输入经验池,当计算的唯一性值小于设定阈值时,将该组数据舍弃。


4.如权利要求2所述的基于深度强化学习算法的人群疏散仿真方法,其特征在于,采用交叉熵方法对改进多智能体深度确定性策略梯度算法进行策略优化的过程为:
将获得的每个智能体的优化路径,生成一个策略;
将生成的策略作为高斯分布的初始均值,计算高斯分布的期望,根据高斯分布的期望选取智能体的动作样...

【专利技术属性】
技术研发人员:刘弘孟祥栋李信金赵缘
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1