基于深度强化学习的人群疏散仿真方法及系统技术方案

技术编号：27060408 阅读：77 留言：0更新日期：2021-01-15 14:40

本公开公开的基于深度强化学习的人群疏散仿真方法及系统，包括：根据场景信息和人群参数信息对构建的疏散场景仿真模型初始化设置；将人群进行分组，并划分出每个群组的领导者与跟随者；采用分层路径规划方法获得人群的疏散路径，其中，上层群组内领导者通过E‑MADDPG算法进行全局路径规划，获取最优疏散路径，下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散。在传统MADDPG算法的基础上引入学习曲线与高优先级经验回放策略，形成了E‑MADDPG算法，提高了算法的学习效率，并在E‑MADDPG算法的基础上提出了一种分层路径规划方法用于规划人群的疏散路径，有效的缩短了路径规划的时间，能够更好地指导人群进行疏散，提高人群疏散的效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的人群疏散仿真方法及系统
本公开涉及基于深度强化学习的人群疏散仿真方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。随着公共安全问题日益频繁的发生，大规模人群疏散问题成为应急处理中不容忽视的重要环节。在人群密集的场所中，危险事故一旦发生，人群为了躲避危险会急于逃离现场，从而在人群疏散过程中造成拥挤现象。如果不能及时疏散甚至可能会造成碰撞、踩踏事故，对疏散人群造成二次伤害。同时，大规模人群疏散是一个复杂的过程，并且大规模人群疏散实验受到组织难、成本高、人员安全等问题影响难以开展。因此计算机仿真技术成为分析疏散过程和评价疏散效率的主要手段。如何提高人群疏散的效率，避免二次伤害，一直是研究者们十分关注的问题。强化学习是近年来人工智能领域的研究热点之一。强化学习与路径规划的结合为提高人群疏散效率提供了新的思路。基于多智能体强化学习的路径规划算法，大大提升了路径规划的效率并且因为能够不断学习所以该方法对动态环境也有一定的适应能力，实用性更强。但是由于真实疏散场景大多较为复杂，传统强化学习方法很难处理这一问题，而深度学习能够有效的处理高维输入，可以更好的处理复杂的真实场景。因此，将强化学习与深度学习结合，结合强化学习的学习策略和深度学习解决高维输入问题的能力，能够更好地应用于人群疏散仿真。由Lowe等人提出的多智能体深度确定性策略梯度(Multi-AgentDeepDeterministicPolicyGradient，MADDPG)算法是一种新的多智

【技术保护点】
1.基于深度强化学习的人群疏散仿真方法，其特征在于，包括：/n根据场景信息和人群参数信息对构建的疏散场景仿真模型初始化设置；/n将人群进行分组，并划分出每个群组的领导者与跟随者；/n采用分层路径规划方法获得人群的疏散路径，其中，上层群组内领导者通过E-MADDPG算法进行全局路径规划，获取最优疏散路径，下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散。/n

【技术特征摘要】
1.基于深度强化学习的人群疏散仿真方法，其特征在于，包括：
根据场景信息和人群参数信息对构建的疏散场景仿真模型初始化设置；
将人群进行分组，并划分出每个群组的领导者与跟随者；
采用分层路径规划方法获得人群的疏散路径，其中，上层群组内领导者通过E-MADDPG算法进行全局路径规划，获取最优疏散路径，下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散。

2.如权利要求1所述的基于深度强化学习的人群疏散仿真方法，其特征在于，接收商场真实的场景数据库，采用YOLOV3方法从行人视频中获取行人运动停驻点，作为E-MADDPG算法的状态空间。

3.如权利要求1所述的基于深度强化学习的人群疏散仿真方法，其特征在于，对MADDPG算法中的经验池容量及采样样本数增添变化参数，形成E-MADDPG算法的经验池曲线和采样样本曲线，通过变化参数调整经验池大小和采样样本数目，使E-MADDPG算法的状态空间动态可变。

4.如权利要求1所述的基于深度强化学习的人群疏散仿真方法，其特征在于，在对E-MADDPG算法的网络训练时，选取价值高的样本进行经验重放。

5.如权利要求1所述的基于深度强化学习的人群疏散仿真方法，其特征在于，组内领导者通过E-MADDPG算法进行全局路径规划，获取最优疏散路径，具体为：
根据出口位置和领导者的初始位置，获取领导者的所有疏散路径；
计算每个疏散路径的奖励值；
选取奖励值最大的疏散路径为最优疏散路径...

【专利技术属性】
技术研发人员：刘弘，李信金，孟祥栋，赵缘，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人