一种基于深度强化学习的动态环境下人群疏散模拟方法技术

技术编号:27320010 阅读:21 留言:0更新日期:2021-02-10 09:59
本发明专利技术提供一种基于深度强化学习的动态环境下人群疏散模拟方法,其中包括:人群作为多智能体系统,对于单个行人智能体而言,采用深度神经网络来逼近状态到动作的映射函数,作为该智能体的行为控制器;行人智能体通过对动态环境状态的观察,利用该映射函数做出行为决策,并从动作空间中采取相应的动作。在离散时间序列的疏散模拟过程中,一个策略指的是给定状态下智能体动作在时间序列上的概率分布。环境对智能体的信息反馈体现为回报值。智能体的目标是最大化累积回报值的期望,即寻找最优动作值函数,并得到最优策略。通过本发明专利技术可以实现经典人群模拟中难以实现的高动态环境下人群疏散模拟,模拟效果更加接近真实情况,人群行为的随机性增强。行为的随机性增强。行为的随机性增强。

【技术实现步骤摘要】
一种基于深度强化学习的动态环境下人群疏散模拟方法


[0001]本专利技术属于人群模拟和计算机仿真
,具体涉及一种基于深度强化学习的动态环境下人群疏散模拟方法。

技术介绍

[0002]从人群疏散模拟的角度来看,目前常用的人群模拟模型可以分为宏观模型和微观模型。宏观模型主要针对群体行为进行建模,把群体看成是遵循流体力学定律的连续体,适用于大区域范围内大规模的人群模拟。微观模型则以单一的个体作为建模的基础单元,通过大量个体的运动以及个体之间的交互作用,涌现出群体行为。相比较之下,微观模型更适合于个体行为的建模和模拟,得到了更多的研究。
[0003]每种模型都有自己的适用场景和局限性。Boids模型适用于鸟群、鱼群等人工生命的模拟,用于人群模拟时需要加入更加复杂的规则或者结合社会力模型一起使用。元胞自动机模型基于离散的格网世界(Lattice Based Models),对于大场景来说,格网分辨率难确定,太粗则模拟失真,太细则影响计算效率。另外,它难以模拟异质智能体,跟三维可视化系统结合也有难度。基于力的模型中智能体运动由动力学方程控制,模拟结果具有更弱的不确定性,难以表现人群疏散问题的复杂性。另外,研究人员需要为每一种行为定义规则,并建立动力学方程,建模难度较大。对于数据驱动的模型来说,模拟结果的真实程度很好,可信度也很高,但是获取和解译真实场景的视频数据往往非常困难。
[0004]近年来,人工智能技术的迅速发展,使得AI驱动的人群模拟成为一种新方法。其中强化学习算法进行人群模拟的研究逐渐增多。在经典的人群模拟方法中,设计者需要自定义智能体的行为规则、建立动力学方程等等;然而强化学习算法赋予智能体学习的能力,展现出与前者完全不同的模式。在强化学习中,智能体通过与环境的交互不断地学习自己的行为规则,即如何根据环境的各种状态来选择自己的行动,从而达到自己的目标——最大化累积回报值。试错搜索和延迟回报是强化学习最主要的两点特征。环境的复杂性使得预先设计 agent行为很难甚至不可能,“硬编码”的行为变得不合适。因此,强化学习适合于解决环境未知(Model-free)、环境动态变化的问题。社会力模型模拟出来的人群准确度较低,随机性较弱。
[0005]目前的人群疏散模拟研究多从微观个体建模出发,只考虑简单的环境因素,例如边界、障碍物等基本环境布局,对于高动态环境考虑甚少。但实际上,从环境行为学的角度来看,人不仅是环境中的一个客体,受环境影响,同时也能积极的改造环境。环境不仅仅是人群活动于其中的一个容器,它还是与人群行为模式不可分离的一部分。应急状态下的环境更是多变的、易变的,不仅仅是灾害过程的演进会引起环境的变化,疏散过程中人群的拥挤、推移等行为也会改变环境。因此,应急情况下的环境是时刻变化着的,人群行为与环境始终处于一个相互作用的过程中。高动态环境下人群疏散模拟,探索该情况下的人群行为规律,对现实的疏散具有指导意义。
[0006]传统强化学习方法进行人群模拟也遇到了很多挑战。一方面,环境的状态和智能
体的移动均是连续的过程,即连续的状态空间和动作空间,然而 Q-Learning、SARSA等算法仅支持离散的状态空间和动作空间,庞大的连续空间可能导致维数灾难问题。另一方面,该类算法通常使用Q table作为状态-动作的映射存储体,在连续状态空间和动作空间的情况中,需要巨大的存储空间及索引时间,导致计算复杂度指数级的增加。
[0007]由于现有技术中的社会力模型模拟出来的人群准确度较低,随机性较弱;传统强化学习方法进行人群模拟存在仅支持离散的状态空间和动作空间,庞大的连续空间可能导致维数灾难问题,且在连续状态空间和动作空间的情况中,需要巨大的存储空间及索引时间,导致计算复杂度指数级的增加等技术问题,因此本专利技术研究设计出一种基于深度强化学习的动态环境下人群疏散模拟方法。

技术实现思路

[0008]因此,本专利技术要解决的技术问题在于克服现有技术中的社会力模型模拟出来的人群随机性较弱的缺陷,从而提供一种基于深度强化学习的动态环境下人群疏散模拟方法。
[0009]本专利技术提供一种基于深度强化学习的动态环境下人群疏散模拟方法,其包括:
[0010]采用状态到动作的映射作为行人智能体行为控制函数,行人疏散模拟的策略π定义为给定状态下智能体动作的概率分布,即其中S是一个有限状态集合;A是一个有限动作集合;是状态转移概率矩阵, t为某一时刻,a为该t时刻的具体动作,s为该t时刻的具体状态;
[0011]计算最优策略:对某个策略而言,当累计回报值最大时,时间序列上动作a的集合即为最优疏散策略,其中G
t
为t时刻的累计回报值,γ是折扣因子,γ∈[0,1],R是回报函数,k为未来时间步数、为自然数。
[0012]累积回报在状态s处的期望值定义为状态值(state-value)函数:
[0013]最优策略对应着最优状态值函数最优策略对应着最优状态值函数指数学期望,公式(3)指t时刻状态为s的条件下,采取策略π所能获得的累积回报期望值。
[0014]动作值(action-value)函数定义为:
[0015]最优策略对应着最优action-value 值函数,最优动作值函数为所有策略中值最大的:值函数,最优动作值函数为所有策略中值最大的:指数学期望,公式(4)指t时刻状态为s,采取某个策略a的条件下,采取策略π所能获得的累积回报期望值。
[0016]最优策略通过最大化q
*
(s,a)来确定:
[0017][0018]其中表示最优的动作函数值,公式(5)指判断当前状态s 下的动作值a是否属于最优的动作函数值,如果是的话,该动作a属于最优策略的一部分;如果不是的话,则不属于最优策略。
[0019]在每个时间步t,智能体接收到环境的状态信息其中是可能状态的集合;基于此状态智能体选择一个动作其中是状态S
t
下所有动作的集合;一个时间步之后,智能体接收一个数值的回报作为此动作的结果,同时观察到一个新的环境状态S
t+1
,由此进入下一次交互的循环过程。
[0020]行人智能体的类视觉感知器建模方案如下:在水平方向上,在正中间0度、左右30度、左右60度投射射线,在左右5度分别增加两条射线;在垂直方向上,上半部分不进行感知器建模;下半部分感知器中采用了0度、15度和30 度的射线,在视觉中心部分增加了7.5度的射线。
[0021]每个行人智能体动作空间见面方案如下:动作被分解为N个维度的原子动作,即动作分支,每个维度d∈{1,...,N}中包含n
d
个离散的子动作,则所有可能的原子动作构成的动作空间大小为
[0022]使用包围身体的胶囊体或者立方体划分个体的身体空间,所述胶囊体或者所述立方体的高度和半径与个体生理属性相对应,使用刚体对个体基本运动进行建模。
[0023]智能体与环境的交互过程包括智能体感知、智能体运动、环境反馈三个阶段;其中智能体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的动态环境下人群疏散模拟方法,其特征在于:采用状态到动作的映射作为行人智能体行为控制函数,行人疏散模拟的策略π定义为给定状态下智能体动作的概率分布,即其中S是一个有限状态集合;A是一个有限动作集合;是状态转移概率矩阵,t为某一时刻,a为该t时刻的具体动作,s为该t时刻的具体状态;获取最优策略:对某个策略而言,当累计回报值最大时,时间序列上动作a的集合即为最优疏散策略,其中G
t
为t时刻的累计回报值,γ是折扣因子,γ∈[0,1],R是回报函数,k为未来时间步数、为自然数。2.根据权利要求1所述的基于深度强化学习的动态环境下人群疏散模拟方法,其特征在于:累积回报在状态s处的期望值定义为状态值(state-value)函数:最优策略对应着最优状态值函数最优策略对应着最优状态值函数指数学期望,公式(3)指t时刻状态为s的条件下,采取策略π所能获得的累积回报期望值。3.根据权利要求1或2所述的基于深度强化学习的动态环境下人群疏散模拟方法,其特征在于:动作值(action-value)函数定义为:最优策略对应着最优action-value值函数,最优动作值函数为所有策略中值最大的:数,最优动作值函数为所有策略中值最大的:指数学期望,公式(4)指t时刻状态为s,采取某个策略a的条件下,采取策略π所能获得的累积回报期望值。4.根据权利要求3所述的基于深度强化学习的动态环境下人群疏散模拟方法,其特征在于:最优策略通过最大化q
*
(s,a)来确定:其中表示最优的动作函数值,公式(5)指判断当前状态s 下的动作值a是否属于最优的动作函数值,如果是的话,该动作a属于最优策略的一部分;如果不是的话,则不属于最优策略。5.根据权利要求1-4中任一项所述的基于深度强化学习的动态环境下人群疏散模拟方法,其特征在于:在每个时间步t,智能体接收到环境的状态信息其中是可能状态的集合;基
于此状态智能体选择一个动作其中是状态S
t
下...

【专利技术属性】
技术研发人员:龚建华申申孙麇李毅殷兵晓武栋
申请(专利权)人:浙江中科空间信息技术应用研发中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1