一种基于深度强化学习的人群疏散仿真方法及系统技术方案

技术编号：26223138 阅读：33 留言：0更新日期：2020-11-04 10:54

本公开提出一种基于深度强化学习的人群疏散仿真方法及系统，所述方案步骤一，构建模拟环境，搭建包含不同功能区的模拟环境，包含房间、楼道、危险点等；步骤二，构建深度强化学习模型，搭建符合模拟环境的神经网络，编写处理逻辑；步骤三，编写训练逻辑，联通模型与环境，使得模型可以和环境进行交互，通行不断的根据环境的反馈进行自身参数的修正，最终收敛可以进行最佳逃生路径的计算；所述方案利用深度强化学习方法解决灾后逃生的路径规划问题，本公开所述方案不需要人工获得环境数据，而是与环境自行交互，极大的提高了灾后路径规划的效率以及规划路径的安全性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的人群疏散仿真方法及系统
本公开涉及人群疏散仿真
，特别涉及一种基于深度强化学习的人群疏散仿真方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。近年来，随着大型公共场所数目增多，行人拥挤现象随处可见。在人群密集的公共场所，行人安全意识的缺乏和对周围环境的不熟悉暗藏了极大地安全隐患，尤其是当火灾等灾难发生时，人员的快速安全疏散成为亟待解决的问题。对于人流量大、人员构成变化性强的公共场所，行人往往对环境不够了解，采用传统的疏散演练方法难以用较低成本达到模拟各种情境的效果；如何真实快速的模拟出人群在公共场所发生意外事故时的疏散路径则成为我们亟待解决的重要问题，通过模拟人群疏散路径可以帮助安全部门预测意外事故发生时人群的疏散过程，进而提出有效的运动规划解决方案，缩短人员疏散时间，减少伤亡人数。专利技术人发现，目前比较成熟的路径规划算法有A-star算法、人工势能算法、元胞自动机、模拟退火算法、遗传算法、Q-Learning算法等等，这些方法存在一个较大的弊端，其无法对错综复杂的环境进行快速适应及学习并做出及时响应，因此导致出现路径规划效率低且准确性差的问题，进而无法对灾后人员进行逃生路径实时有效的指导。
技术实现思路
本公开为了解决上述问题，提出了一种基于深度强化学习的人群疏散仿真方法及系统，利用深度强化学习方法解决灾后逃生的路径规划问题，本公开所述方案不需要人工获得环境数据，而是与环境自行交互，极大的提高了灾后路径规...

【技术保护点】
1.一种基于深度强化学习的人群疏散仿真方法，其特征在于，包括：/n建立场景模型，初始化场景模型中的墙体、智能体危险区域、危险区域以及安全出口；/n构建深度强化学习网络模型；/n制定环境回报配置，并根据所述环境回报配置对所述深度强化进行训练；/n根据智能体起点位置，利用训练好的深度强化学习网络模型计算最佳逃生路径。/n

【技术特征摘要】
1.一种基于深度强化学习的人群疏散仿真方法，其特征在于，包括：
建立场景模型，初始化场景模型中的墙体、智能体危险区域、危险区域以及安全出口；
构建深度强化学习网络模型；
制定环境回报配置，并根据所述环境回报配置对所述深度强化进行训练；
根据智能体起点位置，利用训练好的深度强化学习网络模型计算最佳逃生路径。

2.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法，其特征在于，所述深度强化学习网络模型采用DPES-Dueling-DQN网络模型，所述DQN采用离线学习的机制，先将采集的数据样本存入记忆库，由于记忆库存满之后，新产生的数据将会从头开始覆盖存储，故通过对记忆库中的样本进行优先级定义，并采用PES算法根据优先级对样本进行有选择的替换。

3.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法，其特征在于，所述环境回报配置设置有单步回报、越界回报、碰壁回报、险地回报、危险区域以及安全出口回报。

4.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法，其特征在于，所述单步回报表示为，当环境中出现险情时，使智能体出一条最佳回合回报的路径；所述越界回报和碰壁回报表示为，当智能体在墙体边缘选择撞墙动作，设定此类动作为负值回报；所述险地回报表示为，智能体踏入险地即死亡，回合结束，故将险地回报设定为全局最小值；所述安全出口回报表示为，安全出口为路径规划任务的最终目标，故赋予其全局最大正值回报。

5.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法，其特征在于，所述智能体获得的回报定义如...

【专利技术属性】
技术研发人员：张义，武曲，郭坤，王玺，
申请(专利权)人：青岛理工大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人