基于深度强化学习算法的人群疏散仿真方法及系统技术方案

技术编号：27060411 阅读：31 留言：0更新日期：2021-01-15 14:40

本公开公开的基于深度强化学习算法的人群疏散仿真方法及系统，包括：根据场景信息以及人群参数信息，进行疏散场景仿真模型内的参数的初始化设置；对人群进行分组，并划分组内领导者；各领导者选取最佳出口作为疏散目标，利用改进多智能体深度确定性策略梯度算法进行全局路径规划，获取最优疏散路径；组内普通行人跟随该组内领导者运动。在原本的多智能体深度确定性策略梯度算法的基础上引入对策略进行优化的交叉熵方法与对样本进行优化的数据剪枝算法，优化了算法的结果，加快了算法的收敛速度，能够更好地指导人群进行疏散，提高疏散效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习算法的人群疏散仿真方法及系统
本公开涉及基于深度强化学习算法的人群疏散仿真方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。随着经济发展程度的不断提高，人们对于日常生活的安全需求也在不断提高。紧急情况下的人群疏散一直是不可忽视的话题。由于人群内微小的扰动都会对人群的快速疏散造成很大影响，安全隐患较大，如果不能对人群进行有效的控制，很容易导致人群拥挤踩踏事件。为此，通过模拟真实的人群疏散情况，为行人提供合理的疏散方案，制定最佳的疏散路径减少疏散时间，从而提前规避潜在的人群拥堵踩踏风险，具有重要意义。本研究旨在通过制定最佳的路径规划方案，提高疏散效率，预防各种突发情况下的人员伤亡。人群疏散仿真模型主要有两种，宏观模型和微观模型。宏观模型从整体出发，不考虑个体行为的局部细节信息。微观模型从个体的角度考虑每个个体与环境的交互，可以弥补宏观模型对行人细节描述的不足。关于微观疏散模型，有社会力模型、元胞自动机模型、格子气模型等微观模型分类，它们从单个行人的角度进行建模，考虑到了行人流中个体的种种特征，从而可以更加详细的描述与反映复杂的行人运动。这其中，社会力模型不仅充分考虑到了人群的各种群体行为特征，而且比其他离散模型具有更加真实且精确的结果。但是原始社会力模型并没有考虑到人群疏散中存在的“群组”，“小团体”现象，而且当社会力模型运用于大规模人群疏散仿真时，疏散效率明显下降。由于传统的微观模型运用在大规模人群疏散仿真时效果不好，所以引入了路径规...

【技术保护点】
1.基于深度强化学习算法的人群疏散仿真方法，其特征在于，包括：/n根据场景信息以及人群参数信息，进行疏散场景仿真模型内的参数的初始化设置；/n对人群进行分组，并划分组内领导者；/n各领导者选取最佳出口作为疏散目标，利用改进多智能体深度确定性策略梯度算法进行全局路径规划，获取最优疏散路径；/n组内普通行人跟随该组内领导者运动。/n

【技术特征摘要】
1.基于深度强化学习算法的人群疏散仿真方法，其特征在于，包括：
根据场景信息以及人群参数信息，进行疏散场景仿真模型内的参数的初始化设置；
对人群进行分组，并划分组内领导者；
各领导者选取最佳出口作为疏散目标，利用改进多智能体深度确定性策略梯度算法进行全局路径规划，获取最优疏散路径；
组内普通行人跟随该组内领导者运动。

2.如权利要求1所述的基于深度强化学习算法的人群疏散仿真方法，其特征在于，将各领导者视为智能体，利用改进多智能体深度确定性策略梯度算法进行全局路径规划，包括：
设定智能体的可移动方向和当前位置；
设定Critic网络的奖励回报机制，对智能体的选择给与相应奖励；
每个智能体对应一个Actor网络与一个Critic网络，设置单独的经验池存放所有智能体每一步的经验，
训练Critic网络和Actor网络的模型参数，使用N个回合重复训练步骤，以智能体获取的回报值最大为目标，直至训练出每个智能体的优化路径；
根据获得的智能体的优化路径对改进多智能体深度确定性策略梯度算法进行策略优化；
利用优化后策略，获取智能体的最优疏散路径。

3.如权利要求2所述的基于深度强化学习算法的人群疏散仿真方法，其特征在于，在训练过程中，使用数据剪枝算法对经验池进行优化，具体为：计算输入经验池的一组数据的唯一性值，当计算的唯一性值大于设定阈值时，将该组数据输入经验池，当计算的唯一性值小于设定阈值时，将该组数据舍弃。

4.如权利要求2所述的基于深度强化学习算法的人群疏散仿真方法，其特征在于，采用交叉熵方法对改进多智能体深度确定性策略梯度算法进行策略优化的过程为：
将获得的每个智能体的优化路径，生成一个策略；
将生成的策略作为高斯分布的初始均值，计算高斯分布的期望，根据高斯分布的期望选取智能体的动作样...

【专利技术属性】
技术研发人员：刘弘，孟祥栋，李信金，赵缘，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人