基于多智能体深度强化学习的人群疏散仿真方法及系统技术方案

技术编号:20944673 阅读:46 留言:0更新日期:2019-04-24 02:28
本公开公开了基于多智能体深度强化学习的人群疏散仿真方法及系统,根据人群疏散中个体的初始坐标和运动速度创建仿真场景;在疏散场景的每一个疏散出口处设置计数器,根据区域面积和人数计算出口的拥挤度,拥挤度是为在深度强化学习模型中训练路径时进行回报奖励的反馈;根据每个个体距离各个子区域内房间出口的位置对全体个体进行分组,选取处于组内局部区域最前端的个体作为组内领导;利用多智能体深度确定性政策梯度算法MADDPG对领导进行路径规划,将多个领导看作是多个智能体,多个智能体之间相互协同进而选择最佳疏散路径,引领者根据深度强化学习规划好的路径进行疏散;在组内的各个成员在改进社会力下跟随领导进行疏散活动。

Crowd evacuation simulation method and system based on multi-agent deep reinforcement learning

The present disclosure discloses a crowd evacuation simulation method and system based on multi-agent deep reinforcement learning, which creates a simulation scene according to the initial coordinates and movement speed of the individual in the crowd evacuation, sets a counter at each exit of the evacuation scene, calculates the crowding degree of the exit according to the area and number of the area, and the crowding degree is to advance the training path in the deep reinforcement learning model. Feedback from line reward; grouping all individuals according to the location of each individual from the room exit in each sub-area, selecting the individuals at the front end of the local area as the leader in the group; using MADDPG to plan the path of the leader, considering the leaders as multiple agents, and coordinating the agents. At the same time, the best evacuation path is chosen, and the leader evacuates according to the path planned by the in-depth reinforcement learning; each member of the group follows the leader to carry out evacuation activities under the improved social force.

【技术实现步骤摘要】
基于多智能体深度强化学习的人群疏散仿真方法及系统
本专利技术涉及多智能体强化学习和计算机仿真
,特别是涉及基于多智能体深度强化学习的人群疏散仿真方法及系统。
技术介绍
本部分的陈述仅仅是提高了与本公开相关的
技术介绍
,并不必然构成现有技术。随着城市化进程的不断加快,城市内的建筑物以及人密度也在迅猛增加,随之而来的是公共场所人员大量聚集,而在人员密集的公众场所,由于人们对环境并不熟知,一旦发生突发事件,极易引起如人群拥堵、踩踏等恶性事件,如不能有效地疏散人群就往往会引发群死群伤等恶性事故。如何在突发事件发生时有效的进行灾情控制和人群疏散,从而减免人员伤亡和财产损失是国内外都高度关注的难题。而通过计算机仿真技术来进行场景建模、路径寻优以及人群运动行为建模,可以在达到最佳疏散演练效果的同时将成本最小化,因此,计算机仿真模拟成为研究突发事件下人群疏散的最主要方法。随着人工智能的发展,人们越来越意识到仿真模拟领域和强化学习的结合可以达到更好的效果。现阶段结合强化学习做路径规划的研究大多数将整个框架视为马尔科夫博弈求解问题,仿真模型中的智能体像马尔科夫决策规定的那样,对整个环境开启“上帝视角”,熟知环境,知道自己所处的位置,状态,从而将环境看成是一个完全可观察的。但是,在现实生活中,如果我们已知了环境信息(各个房间位置,出口位置,身处位置),那么我们对于每条通往出口的路径都已经熟知,通过自我观察以及经验判断,我们还是依据完全可观察的环境信息选择一个并不会太差的出口。相反,当我们身处在一个相对陌生的环境中,这时候没有了以上的“上帝视角”,环境也相应变成部分可观察的。也就是当我们进入某些并不熟悉的公众场所时候,我们对于出口位置了解并不全面,对于自己的所处整个场所相对位置也并不明确。我们对于这种情形进行人群紧急疏散仿真训练的需求相对来说是更加急迫的。人群疏散仿真模型主要有两种,宏观模型和微观模型。宏观模型从整体出发,不考虑个体行为的局部细节信息。微观模型从个体的角度考虑每个个体与环境的交互,可以弥补宏观模型对行人细节描述的不足。社会力模型就是一种典型的微观模型,社会力模型是Helbing等人于1995年提出的一个新的行人流模型,在社会力模型中将行人运动描述为力作用的结果,行人运动由自身驱动力、个体间交互力、个体与环境间交互力共同驱动。其中,自身驱动力描述个体向目标运动的期望;个体间交互力反映个体对他人的心理排斥及物理排斥,使个体之间保持一定距离,实现行人运动的碰撞避免;个体与环境间交互力保证个体与障碍物间的安全距离,使行人运动过程中平滑的规避障碍物。当然,仅利用原始社会力模型进行人群疏散仿真时效果往往并不理想,主要还存在以下问题:第一,大规模人群疏散中社会行为的真实特征应考虑到“群组”,“小团体”等由于心理因素和社会关系形成的人群聚集。第二,没有明确的路径规划知识以至于发生拥堵不能很好的进行出口选择,往往会导致出现出口拥挤的现象。第三,疏散效率仍有待提高。值得注意的是,在过去15年中,随着强化学习知识理论的不断完善,强化学习领域已经成为一个逐渐成熟的领域。这期间一些优秀实用的框架理论相继提出和应用,大大改进了强化学习原来的单智能体马尔科夫决策过程。尤其是对于陌生的环境,多个智能体无法直接确定自己所处的状态环境,必须根据模型的全域或者部分区域观察结果来推断状态分布,从来进行沟通交流,进行模型知识的共享,从而使得多智能体更加高效的进行协同。因此,高效率地人群疏散仿真不仅仅成为亟待研究的科研方向,而且还是社会智能化需求的新的风向标。提出一个高效且智能的陌生环境人群疏散仿真方法具有很高的研究价值和实用价值。
技术实现思路
为了解决现有技术的不足,本公开提供了基于多智能体深度强化学习的人群疏散仿真方法及系统,以结合改进社会力以及多智能体的深度强化学习进行疏散仿真,处理效果比较高效;第一方面,本公开提供了基于多智能体深度强化学习的人群疏散仿真方法;基于多智能体深度强化学习的人群疏散仿真方法,包括:根据场景信息以及人群参数信息,进行疏散场景仿真模型内的参数的初始化设置;计算每个出口的拥挤度;实现对全体个体进行分组;选取组内领导;将每一个组内领导视为一个智能体Agent,利用多智能体深度确定性策略梯度算法MADDPG进行路径规划,MADDPG算法中的评论员Critic依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励;进而为每个智能体输出最佳疏散路径。作为一种可能的实现方式,从视频中提取指定区域中的场景信息以及人群参数信息;所述场景信息,包括若干个子房间且每个子房间被视为一个子区域;每个子房间设有一个或多个出口,整个疏散场景设有一个或多个出口。作为一种可能的实现方式,在每一个出口处设置计数器,用于统计每个出口疏散的人群个体数,结合当前出口的区域面积,计算每个出口的拥挤度。作为一种可能的实现方式,将每个子房间内成员划为一组,如果某成员位于子房间外侧,则将该成员与距离该成员最近的子房间出口所对应的子房间成员划分为一组,实现对全体个体进行分组。作为一种可能的实现方式,针对每个分组中的所有个体,选取距离每个房间的出口最近的个体作为组内领导。作为一种可能的实现方式,当组内领导移动到出口时,该组内领导留在出口的位置不变,继续领导组内剩余组员的疏散,最后输出各个组内领导的疏散路径。作为一种可能的实现方式,组员接受组内领导的引领,利用改进社会力模型计算组员与领导、组员与组内其他组员、组员与其他组的组员以及组员与环境的受力,进行运动,直至疏散结束。作为一种可能的实现方式,从视频中提取指定区域中的人群参数信息,是指:利用KLT追踪算法从所述视频中提取出人群疏散中个体的初始坐标和运动速度。作为一种可能的实现方式,所述场景信息,包括下列信息中的至少一种信息:出口位置和每个出口对应的出口区域面积。作为一种可能的实现方式,在每一个出口处设置计数器,用于统计每个出口疏散的人群个体数,结合当前出口的区域面积,进而计算每个出口的拥挤度:设立拥挤阈值,若拥挤度小于拥挤阈值,则各个领导从环境中得到的回报奖励,为正数。如果拥挤度大于阈值,则将各个领导从环境中得到的回报奖励,为负数;奖惩信息R为计算智能体Agent的状态现实网络中的估计期望回报y的重要指标:y=R+γQ'(s_,a_|θQ′),其中,γ表示折扣因子,取值0到1之间;Q'表示状态现实网络;s_表示表示下一步的状态;a_表示下一步的动作;θQ'表示状态现实网络的参数;作为一种可能的实现方式,利用多智能体深度确定性策略梯度算法MADDPG进行路径规划,依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励,进而为每个智能体输出最佳疏散路径的具体步骤为:将每一个组内领导看成是一个智能体Agent;设定智能体的可移动方向和当前位置:将疏散场景划分为网格,设定智能体的当前位置为单个网格的位置坐标,用网格对角线交点的坐标表示;设定智能体的下一步的可移动方向,包括:上移、下移、左移或右移;设置评论员Critic的奖惩机制,奖惩规则:各智能体与高拥挤度区域或障碍物大于设定定距离,若小于等于设定距离则给予的回报奖励为负值Q;否则各个组内领导从评论员Critic处得到的回报奖励为正值Q;如果智能体最后找到整个疏散本文档来自技高网
...

【技术保护点】
1.基于多智能体深度强化学习的人群疏散仿真方法,其特征是,包括:根据场景信息以及人群参数信息,进行疏散场景仿真模型内的参数的初始化设置;计算每个出口的拥挤度;实现对全体个体进行分组;选取组内领导;将每一个组内领导视为一个智能体Agent,利用多智能体深度确定性策略梯度算法MADDPG进行路径规划,MADDPG算法中的评论员Critic依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励;进而为每个智能体输出最佳疏散路径。

【技术特征摘要】
1.基于多智能体深度强化学习的人群疏散仿真方法,其特征是,包括:根据场景信息以及人群参数信息,进行疏散场景仿真模型内的参数的初始化设置;计算每个出口的拥挤度;实现对全体个体进行分组;选取组内领导;将每一个组内领导视为一个智能体Agent,利用多智能体深度确定性策略梯度算法MADDPG进行路径规划,MADDPG算法中的评论员Critic依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励;进而为每个智能体输出最佳疏散路径。2.如权利要求1所述的方法,其特征是,从视频中提取指定区域中的场景信息以及人群参数信息;所述场景信息,包括若干个子房间且每个子房间被视为一个子区域;每个子房间设有一个或多个出口,整个疏散场景设有一个或多个出口;从视频中提取指定区域中的人群参数信息,是指:利用KLT追踪算法从所述视频中提取出人群疏散中个体的初始坐标和运动速度。3.如权利要求1所述的方法,其特征是,在每一个出口处设置计数器,用于统计每个出口疏散的人群个体数,结合当前出口的区域面积,计算每个出口的拥挤度;将每个子房间内成员划为一组,如果某成员位于子房间外侧,则将该成员与距离该成员最近的子房间出口所对应的子房间成员划分为一组,实现对全体个体进行分组。4.如权利要求1所述的方法,其特征是,针对每个分组中的所有个体,选取距离每个房间的出口最近的个体作为组内领导。5.如权利要求1所述的方法,其特征是,当组内领导移动到出口时,该组内领导留在出口的位置不变,继续领导组内剩余组员的疏散,最后输出各个组内领导的疏散路径。6.如权利要求1所述的方法,其特征是,组员接受组内领导的引领,利用改进社会力模型计算组员与领导、组员与组内其他组员、组员与其他组的组员以及组员与环境的受力,进行运动,直至疏散结束。7.如权利要求1所述的方法,其特征是,利用多智能体深度确定性策略梯度算法MADDPG进行路径规划,依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励,进而为每个智能体输出最佳疏散路径的...

【专利技术属性】
技术研发人员:刘弘郑尚菲
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1