一种基于深度强化学习的多乘客动态车辆路径优化方法技术

技术编号:29487951 阅读:87 留言:0更新日期:2021-07-30 18:59
本发明专利技术提供了一种基于深度强化学习的多乘客动态车辆路径优化方法,针对大量乘客的动态巴士路线规划的问题,使用深度强化学习中的神经网络DQN代替表格数据存储方式,解决了维度爆炸的缺陷,实现了在开放环境下优化大量乘客的浮动巴士路径的功能。本发明专利技术满足了巴士运行动态路线变化的需求,为管理者进行应急处置、应急决策提供了技术支撑。本发明专利技术通过模拟乘客分布对现实的巴士规划做出参考,提高了城市规划效率。

【技术实现步骤摘要】
一种基于深度强化学习的多乘客动态车辆路径优化方法
本专利技术属于智能交通
,具体涉及一种基于深度强化学习的多乘客动态车辆路径优化方法。
技术介绍
巴士系统是城市交通系统重要的一环,结合自适应系统的研究,创建动态、智能的巴士系统提高人群的出行效率。浮动巴士系统是以一种典型的以人为中心(AutonomousHumanAdaptiveSystems,AHASs)的自适应系统。浮动巴士系统中,以巴士为载体,以人为核心,使用软件或算法为主导。系统的浮动性来自于系统所处的动态,开放环境,例如道路环境的变化,天气的影响和突发状况等。浮动巴士系统是AHASs的实现,提高质量,增加效率,降低成本等根本需求,在该系统以人为中心的核心下,转化成了提高巴士运输效率,降低乘客等待时间,优化线路等需求。现有的智能巴士领域研究在优化线路、降低能耗和减少乘客等待时间三个方面有一定的进展,但针对较大人流量下的浮动巴士路径优化问题少有涉足,现实场景中的乘客运输除了环境持续变化之外,往往存在通行人数远超过模拟案例的情况。
技术实现思路
本专利技术要本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:包括以下步骤:/nS1:构建车辆运行的状态动作空间;/nS2:以车辆作为强化学习的主体,根据不同情况设定不同的奖励值和惩罚值;/nS3:搭建具有经验回放机制的DQN算法,建立DQN深度神经网络,并训练车辆让实际Q值趋近目标Q值;/nS4:进行监督学习,通过确定损失函数、梯度获得最优的动态车辆路径。/n

【技术特征摘要】
1.一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:包括以下步骤:
S1:构建车辆运行的状态动作空间;
S2:以车辆作为强化学习的主体,根据不同情况设定不同的奖励值和惩罚值;
S3:搭建具有经验回放机制的DQN算法,建立DQN深度神经网络,并训练车辆让实际Q值趋近目标Q值;
S4:进行监督学习,通过确定损失函数、梯度获得最优的动态车辆路径。


2.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S1中,具体步骤为:
设车辆的通行范围在道路的起点和终点之间;
在车辆的通行范围内设有车站、特殊区域、信号灯;
车站为行人的上下车地点,车站带有停车属性;
行人为参与交通的实体,分布在车站的附近,行人分别带有不同的通行计划属性;特殊区域分布在道路的两旁,车辆在经过特殊区域时进行减速操作;
信号灯用于控制交通。


3.根据权利要求2所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S2中,具体步骤为:
设参与学习的车辆的状态为S,车辆在状态S下的动作为A,对车辆的动作的奖励或惩罚的值为R,车辆的状态发生改变的状态转移概率为P;定义四元组<A,S,R,P>和奖惩规则如下:
S=特殊区域且红灯,A=减速,R=-3;
S=普通区域,A=正常速度,R=-1;
S=终点,A=停止,R=10;
S=乘客上车或下车,A=停止,R=1。


4.根据权利要求3所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S3中,具体步骤为:
S31:设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a),在状态s下通过动作a转移到状态s′的转移概率为通过动作a从状态s转移到状态s′获得的奖励为设折扣值为γ,折扣值越大表示越考虑未来的价值累计,折扣值为零表示只看当前步骤的奖励积累;建立状态s下的状态价值函数Vπ(s)为:



设在状态s′下采取动作a′的奖励为Qπ(s′,a′),则状态s下累计的状态动作价值函数Qπ(s)为:



用于评定车辆交互时状态的价值和动作的价值;
S32:在高维连续的状态动作空间中,通过相近的状态拟合相近的输出动作,得到每个状态动...

【专利技术属性】
技术研发人员:刘玮甘陈峰王宁
申请(专利权)人:武汉工程大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1