基于多智能体深度强化学习的人群疏散仿真方法及系统技术方案

技术编号：20944673 阅读：46 留言：0更新日期：2019-04-24 02:28

本公开公开了基于多智能体深度强化学习的人群疏散仿真方法及系统，根据人群疏散中个体的初始坐标和运动速度创建仿真场景；在疏散场景的每一个疏散出口处设置计数器，根据区域面积和人数计算出口的拥挤度，拥挤度是为在深度强化学习模型中训练路径时进行回报奖励的反馈；根据每个个体距离各个子区域内房间出口的位置对全体个体进行分组，选取处于组内局部区域最前端的个体作为组内领导；利用多智能体深度确定性政策梯度算法MADDPG对领导进行路径规划，将多个领导看作是多个智能体，多个智能体之间相互协同进而选择最佳疏散路径，引领者根据深度强化学习规划好的路径进行疏散；在组内的各个成员在改进社会力下跟随领导进行疏散活动。

Crowd evacuation simulation method and system based on multi-agent deep reinforcement learning

The present disclosure discloses a crowd evacuation simulation method and system based on multi-agent deep reinforcement learning, which creates a simulation scene according to the initial coordinates and movement speed of the individual in the crowd evacuation, sets a counter at each exit of the evacuation scene, calculates the crowding degree of the exit according to the area and number of the area, and the crowding degree is to advance the training path in the deep reinforcement learning model. Feedback from line reward; grouping all individuals according to the location of each individual from the room exit in each sub-area, selecting the individuals at the front end of the local area as the leader in the group; using MADDPG to plan the path of the leader, considering the leaders as multiple agents, and coordinating the agents. At the same time, the best evacuation path is chosen, and the leader evacuates according to the path planned by the in-depth reinforcement learning; each member of the group follows the leader to carry out evacuation activities under the improved social force.

全部详细技术资料下载

【技术实现步骤摘要】
基于多智能体深度强化学习的人群疏散仿真方法及系统
本专利技术涉及多智能体强化学习和计算机仿真
，特别是涉及基于多智能体深度强化学习的人群疏散仿真方法及系统。
技术介绍
本部分的陈述仅仅是提高了与本公开相关的
技术介绍
，并不必然构成现有技术。随着城市化进程的不断加快，城市内的建筑物以及人密度也在迅猛增加，随之而来的是公共场所人员大量聚集，而在人员密集的公众场所，由于人们对环境并不熟知，一旦发生突发事件，极易引起如人群拥堵、踩踏等恶性事件，如不能有效地疏散人群就往往会引发群死群伤等恶性事故。如何在突发事件发生时有效的进行灾情控制和人群疏散，从而减免人员伤亡和财产损失是国内外都高度关注的难题。而通过计算机仿真技术来进行场景建模、路径寻优以及人群运动行为建模，可以在达到最佳疏散演练效果的同时将成本最小化，因此，计算机仿真模拟成为研究突发事件下人群疏散的最主要方法。随着人工智能的发展，人们越来越意识到仿真模拟领域和强化学习的结合可以达到更好的效果。现阶段结合强化学习做路径规划的研究大多数将整个框架视为马尔科夫博弈求解问题，仿真模型中的智能体像马尔科夫决策规定的那样，对整个环境开启“上帝视角”，熟知环境，知道自己所处的位置，状态，从而将环境看成是一个完全可观察的。但是，在现实生活中，如果我们已知了环境信息(各个房间位置，出口位置，身处位置)，那么我们对于每条通往出口的路径都已经熟知，通过自我观察以及经验判断，我们还是依据完全可观察的环境信息选择一个并不会太差的出口。相反，当我们身处在一个相对陌生的环境中，这时候没有了以上的“上帝视角”，环境也相应变成部分可观察的。...

【技术保护点】
1.基于多智能体深度强化学习的人群疏散仿真方法，其特征是，包括：根据场景信息以及人群参数信息，进行疏散场景仿真模型内的参数的初始化设置；计算每个出口的拥挤度；实现对全体个体进行分组；选取组内领导；将每一个组内领导视为一个智能体Agent，利用多智能体深度确定性策略梯度算法MADDPG进行路径规划，MADDPG算法中的评论员Critic依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励；进而为每个智能体输出最佳疏散路径。

【技术特征摘要】
1.基于多智能体深度强化学习的人群疏散仿真方法，其特征是，包括：根据场景信息以及人群参数信息，进行疏散场景仿真模型内的参数的初始化设置；计算每个出口的拥挤度；实现对全体个体进行分组；选取组内领导；将每一个组内领导视为一个智能体Agent，利用多智能体深度确定性策略梯度算法MADDPG进行路径规划，MADDPG算法中的评论员Critic依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励；进而为每个智能体输出最佳疏散路径。2.如权利要求1所述的方法，其特征是，从视频中提取指定区域中的场景信息以及人群参数信息；所述场景信息，包括若干个子房间且每个子房间被视为一个子区域；每个子房间设有一个或多个出口，整个疏散场景设有一个或多个出口；从视频中提取指定区域中的人群参数信息，是指：利用KLT追踪算法从所述视频中提取出人群疏散中个体的初始坐标和运动速度。3.如权利要求1所述的方法，其特征是，在每一个出口处设置计数器，用于统计每个出口疏散的人群个体数，结合当前出口的区域面积，计算每个出口的拥挤度；将每个子房间内成员划为一组，如果某成员位于子房间外侧，则将该成员与距离该成员最近的子房间出口所对应的子房间成员划分为一组，实现对全体个体进行分组。4.如权利要求1所述的方法，其特征是，针对每个分组中的所有个体，选取距离每个房间的出口最近的个体作为组内领导。5.如权利要求1所述的方法，其特征是，当组内领导移动到出口时，该组内领导留在出口的位置不变，继续领导组内剩余组员的疏散，最后输出各个组内领导的疏散路径。6.如权利要求1所述的方法，其特征是，组员接受组内领导的引领，利用改进社会力模型计算组员与领导、组员与组内其他组员、组员与其他组的组员以及组员与环境的受力，进行运动，直至疏散结束。7.如权利要求1所述的方法，其特征是，利用多智能体深度确定性策略梯度算法MADDPG进行路径规划，依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励，进而为每个智能体输出最佳疏散路径的...

【专利技术属性】
技术研发人员：刘弘，郑尚菲，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人