一种基于深度强化学习的人群疏散仿真方法及系统技术方案

技术编号:26223138 阅读:33 留言:0更新日期:2020-11-04 10:54
本公开提出一种基于深度强化学习的人群疏散仿真方法及系统,所述方案步骤一,构建模拟环境,搭建包含不同功能区的模拟环境,包含房间、楼道、危险点等;步骤二,构建深度强化学习模型,搭建符合模拟环境的神经网络,编写处理逻辑;步骤三,编写训练逻辑,联通模型与环境,使得模型可以和环境进行交互,通行不断的根据环境的反馈进行自身参数的修正,最终收敛可以进行最佳逃生路径的计算;所述方案利用深度强化学习方法解决灾后逃生的路径规划问题,本公开所述方案不需要人工获得环境数据,而是与环境自行交互,极大的提高了灾后路径规划的效率以及规划路径的安全性。

【技术实现步骤摘要】
一种基于深度强化学习的人群疏散仿真方法及系统
本公开涉及人群疏散仿真
,特别涉及一种基于深度强化学习的人群疏散仿真方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。近年来,随着大型公共场所数目增多,行人拥挤现象随处可见。在人群密集的公共场所,行人安全意识的缺乏和对周围环境的不熟悉暗藏了极大地安全隐患,尤其是当火灾等灾难发生时,人员的快速安全疏散成为亟待解决的问题。对于人流量大、人员构成变化性强的公共场所,行人往往对环境不够了解,采用传统的疏散演练方法难以用较低成本达到模拟各种情境的效果;如何真实快速的模拟出人群在公共场所发生意外事故时的疏散路径则成为我们亟待解决的重要问题,通过模拟人群疏散路径可以帮助安全部门预测意外事故发生时人群的疏散过程,进而提出有效的运动规划解决方案,缩短人员疏散时间,减少伤亡人数。专利技术人发现,目前比较成熟的路径规划算法有A-star算法、人工势能算法、元胞自动机、模拟退火算法、遗传算法、Q-Learning算法等等,这些方法存在一个较大的弊端,其无法对错综复杂的环境进行快速适应及学习并做出及时响应,因此导致出现路径规划效率低且准确性差的问题,进而无法对灾后人员进行逃生路径实时有效的指导。
技术实现思路
本公开为了解决上述问题,提出了一种基于深度强化学习的人群疏散仿真方法及系统,利用深度强化学习方法解决灾后逃生的路径规划问题,本公开所述方案不需要人工获得环境数据,而是与环境自行交互,极大的提高了灾后路径规划的效率以及规划路径的安全性。根据本公开实施例的第一个方面,提供了一种基于深度强化学习的人群疏散仿真方法,包括:建立场景模型,初始化场景模型中的危险区域墙体、智能体危险区域、危险区域以及安全出口;构建深度强化学习网络模型;制定环境回报配置,并根据所述环境回报配置对所述深度强化进行训练;根据智能体起点位置,利用训练好的深度强化学习网络模型计算最佳逃生路径。进一步的,所述深度强化学习网络模型采用DPES-Dueling-DQN网络模型,所述DQN采用离线学习的机制,先将采集的数据样本存入记忆库,记忆库存满之后,新产生的数据将会从头开始覆盖存储,这种方式会覆盖掉有价值的数据,为了避免上述问题,通过对记忆库中的样本进行优先级定义,并采用PES根据优先级对样本进行有选择的替换。进一步的,所述环境回报配置设置有单步回报、越界回报、碰壁回报、险地回报、危险区域以及安全出口回报。进一步的,所述单步回报表示为,当环境中出现险情时,能够通过模型选择一系列的最佳动作以最大的逃生回报完成逃生过程;所述越界回报和碰壁回报表示为,当智能体在区域墙体边缘选择撞墙动作,设定此类动作为负值回报;所述险地回报表示为,智能体踏入险地即死亡,回合结束,故将险地回报设定为全局最小值;所述安全出口回报表示为,安全出口为路径规划任务的最终目标,故赋予其全局最大正值回报。根据本公开实施例的第二个方面,提供了一种基于深度强化学习的人群疏散仿真方法及系统,包括:场景构建模块,其用于建立场景模型,初始化场景模型中的墙体、智能体、危险区域以及安全出口;网络模型构建模块,其用于构建深度强化学习网络模型;制定环境回报配置,并根据所述环境回报配置对所述深度强化进行训练;路径规划模块,其用于根据智能体起点位置,利用训练好的深度强化学习网络模型计算最佳逃生路径。根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于深度强化学习的人群疏散仿真方法及系统。根据本公开实施例的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于深度强化学习的人群疏散仿真方法及系统。与现有技术相比,本公开的有益效果是:本公开所述方案利用深度强化学习方法解决了灾后人员逃生的路径规划问题,现有的路径规划方法多为在环境已知的情况下进行的路径规划,需要人工对环境进行数据提取,传入模型再计算得出最优路径;而本申请所述方案无需人工获得环境数据,而是与环境自行交互,通过环境的反馈来不断的优化模型,最终得到可以计算出最佳路径的模型,极大的提高了路径规划的实时性以及精确度,有效的提高了用户灾后逃生的安全性。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为本公开实施例一中所述的人群疏散仿真方法的流程框架示意图;图2为本公开实施例一中所述的核心神经网络结构图;图3为本公开实施例一中所述的模拟环境分布图;图4为本公开实施例一中所述的火灾发生后的模拟环境分布图;图5为本公开实施例一中所述的火灾发生后逃生引导方向图;图6为本公开实施例一中所述的模拟环境仿真模型示意图;图7为本公开实施例一中所述的最佳逃生路径的效果展示图。具体实施方式下面结合附图与实施例对本公开作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一:本实施例的目的是提供一种基于深度强化学习的人群疏散仿真方法。如图3所示为本实施例中所构建的场景模型,如图4所示模拟了火情发生情况时的场景,一种基于深度强化学习的人群疏散仿真方法,包括:根据真实环境建立场景,初始化场景模型中的墙体、智能体、危险区域、危险区域以及安全出口;构建深度强化学习网络模型;制定环境回报配置,并根据所述环境回报配置对所述深度强化进行训练;根据智能体起点位置,利用训练好的深度强化学习网络模型计算最佳逃生路径。进一步的,所述场景模型的建立根据实际需求构建建筑物的2D或3D场景模型,并根据实际情况,在场景模型添加相应的墙体、智能体、危险区域以及安全出口;本实施例中采用模拟建筑物2D场景模型的方式进行仿真实验。进一步的,所述深度强化学习网络模型采用DPES-Dueling-DQN网络模型,其中,DPES中的D代表Distributed,分布式,是训练模型时的一种策略,通过多线程同时训练;通过采用分布式策略进行模型的训练,有效提高了模型训练的效率;所述DQN采用离线学习的机制,先将采集的数据样本存入记忆库,再随机选取数据库中的部分数据进行随机梯度下降来进行模型学本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的人群疏散仿真方法,其特征在于,包括:/n建立场景模型,初始化场景模型中的墙体、智能体危险区域、危险区域以及安全出口;/n构建深度强化学习网络模型;/n制定环境回报配置,并根据所述环境回报配置对所述深度强化进行训练;/n根据智能体起点位置,利用训练好的深度强化学习网络模型计算最佳逃生路径。/n

【技术特征摘要】
1.一种基于深度强化学习的人群疏散仿真方法,其特征在于,包括:
建立场景模型,初始化场景模型中的墙体、智能体危险区域、危险区域以及安全出口;
构建深度强化学习网络模型;
制定环境回报配置,并根据所述环境回报配置对所述深度强化进行训练;
根据智能体起点位置,利用训练好的深度强化学习网络模型计算最佳逃生路径。


2.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法,其特征在于,所述深度强化学习网络模型采用DPES-Dueling-DQN网络模型,所述DQN采用离线学习的机制,先将采集的数据样本存入记忆库,由于记忆库存满之后,新产生的数据将会从头开始覆盖存储,故通过对记忆库中的样本进行优先级定义,并采用PES算法根据优先级对样本进行有选择的替换。


3.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法,其特征在于,所述环境回报配置设置有单步回报、越界回报、碰壁回报、险地回报、危险区域以及安全出口回报。


4.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法,其特征在于,所述单步回报表示为,当环境中出现险情时,使智能体出一条最佳回合回报的路径;所述越界回报和碰壁回报表示为,当智能体在墙体边缘选择撞墙动作,设定此类动作为负值回报;所述险地回报表示为,智能体踏入险地即死亡,回合结束,故将险地回报设定为全局最小值;所述安全出口回报表示为,安全出口为路径规划任务的最终目标,故赋予其全局最大正值回报。


5.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法,其特征在于,所述智能体获得的回报定义如...

【专利技术属性】
技术研发人员:张义武曲郭坤王玺
申请(专利权)人:青岛理工大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1