一种基于深度强化学习的动态环境下人群疏散模拟方法技术

技术编号：27320010 阅读：21 留言：0更新日期：2021-02-10 09:59

本发明专利技术提供一种基于深度强化学习的动态环境下人群疏散模拟方法，其中包括：人群作为多智能体系统，对于单个行人智能体而言，采用深度神经网络来逼近状态到动作的映射函数，作为该智能体的行为控制器；行人智能体通过对动态环境状态的观察，利用该映射函数做出行为决策，并从动作空间中采取相应的动作。在离散时间序列的疏散模拟过程中，一个策略指的是给定状态下智能体动作在时间序列上的概率分布。环境对智能体的信息反馈体现为回报值。智能体的目标是最大化累积回报值的期望，即寻找最优动作值函数，并得到最优策略。通过本发明专利技术可以实现经典人群模拟中难以实现的高动态环境下人群疏散模拟，模拟效果更加接近真实情况，人群行为的随机性增强。行为的随机性增强。行为的随机性增强。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的动态环境下人群疏散模拟方法

[0001]本专利技术属于人群模拟和计算机仿真
，具体涉及一种基于深度强化学习的动态环境下人群疏散模拟方法。

技术介绍

[0002]从人群疏散模拟的角度来看，目前常用的人群模拟模型可以分为宏观模型和微观模型。宏观模型主要针对群体行为进行建模，把群体看成是遵循流体力学定律的连续体，适用于大区域范围内大规模的人群模拟。微观模型则以单一的个体作为建模的基础单元，通过大量个体的运动以及个体之间的交互作用，涌现出群体行为。相比较之下，微观模型更适合于个体行为的建模和模拟，得到了更多的研究。
[0003]每种模型都有自己的适用场景和局限性。Boids模型适用于鸟群、鱼群等人工生命的模拟，用于人群模拟时需要加入更加复杂的规则或者结合社会力模型一起使用。元胞自动机模型基于离散的格网世界(Lattice Based Models)，对于大场景来说，格网分辨率难确定，太粗则模拟失真，太细则影响计算效率。另外，它难以模拟异质智能体，跟三维可视化系统结合也有难度。基于力的模型中智能体运动由动力学方程控制，模拟结果具有更弱的不确定性，难以表现人群疏散问题的复杂性。另外，研究人员需要为每一种行为定义规则，并建立动力学方程，建模难度较大。对于数据驱动的模型来说，模拟结果的真实程度很好，可信度也很高，但是获取和解译真实场景的视频数据往往非常困难。
[0004]近年来，人工智能技术的迅速发展，使得AI驱动的人群模拟成为一种新方法。其中强化学习算法进行人群模拟的研究逐渐增多。在经典...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的动态环境下人群疏散模拟方法，其特征在于：采用状态到动作的映射作为行人智能体行为控制函数，行人疏散模拟的策略π定义为给定状态下智能体动作的概率分布，即其中S是一个有限状态集合；A是一个有限动作集合；是状态转移概率矩阵，t为某一时刻，a为该t时刻的具体动作，s为该t时刻的具体状态；获取最优策略：对某个策略而言，当累计回报值最大时，时间序列上动作a的集合即为最优疏散策略，其中G
t
为t时刻的累计回报值，γ是折扣因子，γ∈[0,1]，R是回报函数，k为未来时间步数、为自然数。2.根据权利要求1所述的基于深度强化学习的动态环境下人群疏散模拟方法，其特征在于：累积回报在状态s处的期望值定义为状态值(state-value)函数：最优策略对应着最优状态值函数最优策略对应着最优状态值函数指数学期望，公式(3)指t时刻状态为s的条件下，采取策略π所能获得的累积回报期望值。3.根据权利要求1或2所述的基于深度强化学习的动态环境下人群疏散模拟方法，其特征在于：动作值(action-value)函数定义为：最优策略对应着最优action-value值函数，最优动作值函数为所有策略中值最大的：数，最优动作值函数为所有策略中值最大的：指数学期望，公式(4)指t时刻状态为s，采取某个策略a的条件下，采取策略π所能获得的累积回报期望值。4.根据权利要求3所述的基于深度强化学习的动态环境下人群疏散模拟方法，其特征在于：最优策略通过最大化q
*
(s,a)来确定：其中表示最优的动作函数值，公式(5)指判断当前状态s 下的动作值a是否属于最优的动作函数值，如果是的话，该动作a属于最优策略的一部分；如果不是的话，则不属于最优策略。5.根据权利要求1-4中任一项所述的基于深度强化学习的动态环境下人群疏散模拟方法，其特征在于：在每个时间步t，智能体接收到环境的状态信息其中是可能状态的集合；基
于此状态智能体选择一个动作其中是状态S
t
下...

【专利技术属性】
技术研发人员：龚建华，申申，孙麇，李毅，殷兵晓，武栋，
申请(专利权)人：浙江中科空间信息技术应用研发中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人