一种基于多目标Sarsa学习的动态路径诱导方法技术

技术编号:20219813 阅读:29 留言:0更新日期:2019-01-28 19:01
本发明专利技术提出一种基于多目标Sarsa学习的动态路径诱导方法,流程包括:信息初始化;信息更新;诱导路径计算,包括Q矢量表归一化,计算基于驾驶者偏好的标量值,计算Boltzmann概率分布,通过轮盘赌方法为驾驶者选择符合其个人偏好的下一行驶路段,直到驾驶者车辆达到目的地。根据当前交通系统的交通状况,优化车辆的行驶路径,提高交通系统效率,缓解交通拥堵状况。从实际角度出发,同时进行多诱导目标的动态路径诱导,更为符合实际生活中的诱导需求。考虑驾驶者诱导偏好,为驾驶者提供符合个人偏好的的动态诱导路径,从而提高诱导路径接受率,进一步提高交通系统的通行效率,缓解交通拥堵状况。

【技术实现步骤摘要】
一种基于多目标Sarsa学习的动态路径诱导方法
本专利技术属于智能交通
,具体涉及一种基于多目标Sarsa学习的动态路径诱导方法。
技术介绍
近些年,随着我国社会经济的飞速发展,私人汽车保有量不断攀升,随之而来的城市交通压力增大,城市交通拥挤、堵塞,交通事故频发等问题亦是日益严重。此外,驾驶者作为交通系统中的重要参与者,在一段旅程中往往同时具有多个诱导目标并对不同的目标有不同的偏好。是否考虑驾驶者个人偏好会对诱导信息的接受程度产生很大的影响从而影响交通系统的通行效率。因此,从缓解交通拥堵,满足驾驶者个人偏好的角度出发,实现高效、动态的路径诱导是非常有必要的。强化学习具有很强的自适应性和自学习能力,不需要先验知识和建模,就可以随着系统环境的变化不断调整自身的控制策略,利用系统的动态信息进行学习,满足对高随机性、复杂性的交通诱导系统的控制要求。Sarsa学习作为一种on-policy学习的强化学习算法尤为适用于复杂多变,实时性强的交通诱导系统中最优路径的搜索与车辆的动态诱导。目前提出的路径诱导模型和诱导算法大多是仅针对路段行程时间构建的单目标路径诱导方法,忽略了实际生活中的诱导需求以及驾驶者的个人偏好。多目标强化学习常被用来解决此类多目标优化问题,求解多目标强化学习最优解集的方法主要分为单策略方法和多策略方法。然而相比于单策略方法,多策略方法在每次与环境交互时都会学习一系列最优解的集合去逼近Pareto前沿,此过程需要大量计算时间,对应计算量也非常大。并且在on-policy学习中使用多策略方法,对应解集的计算量和存储所需的大量时间都使此种方法不适用于动态路径诱导系统。因此,单策略多目标Sarsa学习,适用于解决在包含多诱导目标基础上考虑驾驶者偏好的动态路径诱导问题。
技术实现思路
根据以上技术问题,本专利技术的目的是提供一种基于多目标Sarsa学习的动态路径诱导方法。充分利用实时交通数据信息与驾驶者个人偏好信息,在为驾驶者提供依据个人偏好的路径诱导信息的同时,协调整体交通系统通行,缓解交通拥堵,提高交通系统通行效率。采用的技术方案是:一种基于多目标Sarsa学习的动态路径诱导方法包括步骤1~步骤3:步骤1:信息初始化,具体包括步骤1.1~步骤1.3:步骤1.1:确认诱导目标:包括选择最小化旅行时间、最小化旅行距离和最小化花费,一种或者几种;;步骤1.2:针对诱导目标,交通信息中心使用基于Q值的动态规划算法并根据地理信息库中路网信息,以及历史采集到的各路段静态数据来初始化路网上各个诱导目标对应待选择终点的Q矢量表,且一个Q矢量表对应一个待选择的终点;步骤1.3:设置交通信息中心发布的Q值信息更新时间间隔T;所述路网信息包括:路网拓扑结构、道路长度、车道数;所述各路段静态数据包括:历史车辆通行时间、距离、花费;步骤2:信息更新,具体包括:定义诱导目标权重、当前路网交通拥堵系数计算和每隔T时刻,用Sarsa学习方法更新Q矢量表:(1)定义诱导目标权重:记录路网中所有车辆当前信息,经过当前路段的实时交通信息,以及路网中通行的每个驾驶者的偏好;假设共有n个诱导目标,则每个驾驶者的偏好记作权重矢量ω=(ω1,...,ωn),其中,ωo∈[0,1]表示第o个诱导目标对应偏好的权重,定义各诱导目标的权重:每个驾驶者自行定义对每个诱导目标的在意程度,即为每个驾驶者的偏好记权重;所述所有车辆当前信息包括:包括位置,期望目的地,能到达的所有下一交通节点;所述当前路段的实时交通信息包括:行驶时间、距离、花费;(2)当前路网交通拥堵系数计算:统计当前路网中车辆数量NV,并根据当前路网中车辆数量计算当前路网交通拥堵系数∈:其中,β,γ为参数,交通拥堵系数∈表示交通系统当前的交通状况,∈的值会随着当前路网中的总车辆数量NV的增加而增大,当∈值较大时,就意味着当前交通状况较为拥堵,反之亦然。(3)每隔T时刻,用Sarsa学习方法更新Q矢量表:每隔T时刻,通过(1)中获取的距更新时间最近的各个路段上车辆的实时信息,以及使用步骤3.3和步骤3.4所分配的下一行驶路段对每个诱导目标o,根据Sarsa学习方法分别更新对应终点的Q矢量表,Sarsa学习方法公式如下:其中,为以o为诱导目标从交通节点i出发经过相邻交通节点j且终点为d的Q值,k为交通节点j的相邻交通节点,α为学习率,为车辆ν经过路段sij获得的实际奖赏值;所述实际奖赏值包括:行驶时间、距离或花费,仅选择一种。步骤3:诱导路径计算,包括步骤3.1~步骤3.5:步骤3.1:Q矢量表归一化:根据步骤2中更新后的Q矢量表,对不同的诱导目标分别采用离差标准化方法归一化对应的Q值,公式如下:其中,为经过路段sij终点为d的诱导目标o的归一化Q值,和分别为终点为d且诱导目标为o所对应的所有路段Q值中的最小值和最大值。步骤3.2:计算基于驾驶者偏好的标量值:根据步骤2中得到的相应驾驶者偏好即权重矢量ω,以及步骤3.1归一化后的Q矢量表,应用线性标量化函数如下公式,将终点为d的Q矢量表中车辆所处当前交通节点的全部相邻路段的Q矢量,转换为基于驾驶者偏好的标量值SQd(i,j),具体公式如下:其中,n表示诱导目标数量,ωo表示目标o对应的偏好权重,表示经过路段sij终点为d的目标o的归一化Q值;步骤3.3:计算Boltzmann概率分布:通过步骤2中获取的车辆当前信息,使用基于驾驶者偏好的标量值SQd(i,j),计算当前交通节点相邻路段的Boltzmann概率分布,公式如下:其中,Pd(i,j)为车辆终点为d并选择路段sij的概率,i,j为交通节点,A(i)为以交通节点i为起点的路段的终点集合,根据路网拓扑结构所得当前节点相邻路段所对应的终点组成的集合,∈为交通拥堵系数,ESQd(i)是节点i周围路段到目的地d的基于驾驶者偏好的标量值SQd(i)的平均值。步骤3.4:选择符合其个人偏好的下一行驶路段:基于步骤3.3计算各路段Boltzmann概率分布,通过轮盘赌方法为驾驶者选择符合其个人偏好的下一行驶路段;步骤3.5:若车辆未到达目的地,重复步骤3.2~3.3,直至车辆到达目的地。有益技术效果:1.一种基于多目标Sarsa学习的动态路径诱导方法能够充分利用当前交通系统的实时信息,根据当前交通系统的交通状况,优化车辆的行驶路径,提高交通系统效率,缓解交通拥堵状况。2.一种基于多目标Sarsa学习的动态路径诱导方法从实际角度出发,同时进行多诱导目标的动态路径诱导,更为符合实际生活中的诱导需求。3.一种基于多目标Sarsa学习的动态路径诱导方法考虑驾驶者诱导偏好,为驾驶者提供符合个人偏好的的动态诱导路径,从而提高诱导路径接受率,进一步提高交通系统的通行效率,缓解交通拥堵状况。附图说明图1为本专利技术实施例的一种基于多目标Sarsa学习的动态路径诱导方法流程图;图2为本专利技术实施例的动态路径诱导示意图;图3为本专利技术实施例的车辆路径计算示意图;图4为本专利技术实施例的与传统诱导方法相比针对交通拥堵情况对比示意图。具体实施方式下面结合附图和具体实施实例对专利技术做进一步说明,整个动态路径诱导系统与车辆间信息交互的过程如图2所示。位于路网中的车辆向动态路径诱导系统发送自身位置、终点、个人偏好等数据,动态路径诱导系统通过车辆本文档来自技高网
...

【技术保护点】
1.一种基于多目标Sarsa学习的动态路径诱导方法,其特征在于,包括如下流程:步骤1:信息初始化,具体包括步骤1.1~步骤1.3:步骤1.1:确认诱导目标:包括选择最小化旅行时间、最小化旅行距离和最小化花费,一种或者几种;步骤1.2:针对诱导目标,交通信息中心使用基于Q值的动态规划算法并根据地理信息库中路网信息,以及历史采集到的各路段静态数据,来初始化路网上各个诱导目标对应待选择终点的Q矢量表,且一个Q矢量表对应一个待选择的终点;步骤1.3:设置交通信息中心发布的Q值信息更新时间间隔T;步骤2:信息更新,具体包括:定义诱导目标权重、当前路网交通拥堵系数计算和每隔T时刻,用Sarsa学习方法更新Q矢量表:(1)定义诱导目标权重:记录路网中所有车辆当前信息,经过当前路段的实时交通信息,以及路网中通行的每个驾驶者的偏好;假设共有n个诱导目标,则每个驾驶者的偏好记作权重矢量ω=(ω1,...,ωn),其中,ωo∈[0,1]表示第o个诱导目标对应偏好的权重,定义各诱导目标的权重:

【技术特征摘要】
1.一种基于多目标Sarsa学习的动态路径诱导方法,其特征在于,包括如下流程:步骤1:信息初始化,具体包括步骤1.1~步骤1.3:步骤1.1:确认诱导目标:包括选择最小化旅行时间、最小化旅行距离和最小化花费,一种或者几种;步骤1.2:针对诱导目标,交通信息中心使用基于Q值的动态规划算法并根据地理信息库中路网信息,以及历史采集到的各路段静态数据,来初始化路网上各个诱导目标对应待选择终点的Q矢量表,且一个Q矢量表对应一个待选择的终点;步骤1.3:设置交通信息中心发布的Q值信息更新时间间隔T;步骤2:信息更新,具体包括:定义诱导目标权重、当前路网交通拥堵系数计算和每隔T时刻,用Sarsa学习方法更新Q矢量表:(1)定义诱导目标权重:记录路网中所有车辆当前信息,经过当前路段的实时交通信息,以及路网中通行的每个驾驶者的偏好;假设共有n个诱导目标,则每个驾驶者的偏好记作权重矢量ω=(ω1,...,ωn),其中,ωo∈[0,1]表示第o个诱导目标对应偏好的权重,定义各诱导目标的权重:每个驾驶者自行定义对每个诱导目标的在意程度,即为每个驾驶者的偏好记权重;(2)当前路网交通拥堵系数计算:统计当前路网中车辆数量NV,并根据当前路网中车辆数量计算当前路网交通拥堵系数∈:其中,β,γ为参数,交通拥堵系数∈表示交通系统当前的交通状况;(3)每隔T时刻,用Sarsa学习方法更新Q矢量表:每隔T时刻,通过(1)中获取的距更新时间最近的各个路段上车辆的实时信息,以及使用步骤3.3和步骤3.4所分配的下一行驶路段对每个诱导目标o,根据Sarsa学习方法分别更新对应终点的Q矢量表,Sarsa学习方法公式如下:其中,为以o为诱导目标从交通节点i出发经过相邻交通节点j且终点为d的Q值,k为交通节点j的相邻交通节点,α为学习率,为车辆v经过路段sij获得的实际奖赏值;步骤3:诱导路径计算,包括步骤3.1~步骤3.5:步骤3.1:Q矢量表归一化:根据步骤2中更新后的Q矢量表,对不同的诱导目标分别采用离差标准化方法归一化对应的Q值,公式如下:其中,为经过路段sij终点为d的诱导目标o的归一化Q值,和分别为终点为d且诱导目标为o所对应的所有路段Q...

【专利技术属性】
技术研发人员:文峰封筱
申请(专利权)人:沈阳理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1