一种基于多目标Sarsa学习的动态路径诱导方法技术

技术编号：20219813 阅读：29 留言：0更新日期：2019-01-28 19:01

本发明专利技术提出一种基于多目标Sarsa学习的动态路径诱导方法，流程包括：信息初始化；信息更新；诱导路径计算，包括Q矢量表归一化，计算基于驾驶者偏好的标量值，计算Boltzmann概率分布，通过轮盘赌方法为驾驶者选择符合其个人偏好的下一行驶路段，直到驾驶者车辆达到目的地。根据当前交通系统的交通状况，优化车辆的行驶路径，提高交通系统效率，缓解交通拥堵状况。从实际角度出发，同时进行多诱导目标的动态路径诱导，更为符合实际生活中的诱导需求。考虑驾驶者诱导偏好，为驾驶者提供符合个人偏好的的动态诱导路径，从而提高诱导路径接受率，进一步提高交通系统的通行效率，缓解交通拥堵状况。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多目标Sarsa学习的动态路径诱导方法
本专利技术属于智能交通
，具体涉及一种基于多目标Sarsa学习的动态路径诱导方法。
技术介绍
近些年，随着我国社会经济的飞速发展，私人汽车保有量不断攀升，随之而来的城市交通压力增大，城市交通拥挤、堵塞，交通事故频发等问题亦是日益严重。此外，驾驶者作为交通系统中的重要参与者，在一段旅程中往往同时具有多个诱导目标并对不同的目标有不同的偏好。是否考虑驾驶者个人偏好会对诱导信息的接受程度产生很大的影响从而影响交通系统的通行效率。因此，从缓解交通拥堵，满足驾驶者个人偏好的角度出发，实现高效、动态的路径诱导是非常有必要的。强化学习具有很强的自适应性和自学习能力，不需要先验知识和建模，就可以随着系统环境的变化不断调整自身的控制策略，利用系统的动态信息进行学习，满足对高随机性、复杂性的交通诱导系统的控制要求。Sarsa学习作为一种on-policy学习的强化学习算法尤为适用于复杂多变，实时性强的交通诱导系统中最优路径的搜索与车辆的动态诱导。目前提出的路径诱导模型和诱导算法大多是仅针对路段行程时间构建的单目标路径诱导方法，忽略了实际生活中的诱导需求以及驾驶者的个人偏好。多目标强化学习常被用来解决此类多目标优化问题，求解多目标强化学习最优解集的方法主要分为单策略方法和多策略方法。然而相比于单策略方法，多策略方法在每次与环境交互时都会学习一系列最优解的集合去逼近Pareto前沿，此过程需要大量计算时间，对应计算量也非常大。并且在on-policy学习中使用多策略方法，对应解集的计算量和存储所需的大量时间都使此种方法不适用于动...

【技术保护点】
1.一种基于多目标Sarsa学习的动态路径诱导方法，其特征在于，包括如下流程：步骤1：信息初始化，具体包括步骤1.1～步骤1.3：步骤1.1：确认诱导目标：包括选择最小化旅行时间、最小化旅行距离和最小化花费，一种或者几种；步骤1.2：针对诱导目标，交通信息中心使用基于Q值的动态规划算法并根据地理信息库中路网信息，以及历史采集到的各路段静态数据，来初始化路网上各个诱导目标对应待选择终点的Q矢量表，且一个Q矢量表对应一个待选择的终点；步骤1.3：设置交通信息中心发布的Q值信息更新时间间隔T；步骤2：信息更新，具体包括：定义诱导目标权重、当前路网交通拥堵系数计算和每隔T时刻，用Sarsa学习方法更新Q矢量表：(1)定义诱导目标权重：记录路网中所有车辆当前信息，经过当前路段的实时交通信息，以及路网中通行的每个驾驶者的偏好；假设共有n个诱导目标，则每个驾驶者的偏好记作权重矢量ω＝(ω1，...，ωn)，其中，ωo∈[0，1]表示第o个诱导目标对应偏好的权重，定义各诱导目标的权重：

【技术特征摘要】
1.一种基于多目标Sarsa学习的动态路径诱导方法，其特征在于，包括如下流程：步骤1：信息初始化，具体包括步骤1.1～步骤1.3：步骤1.1：确认诱导目标：包括选择最小化旅行时间、最小化旅行距离和最小化花费，一种或者几种；步骤1.2：针对诱导目标，交通信息中心使用基于Q值的动态规划算法并根据地理信息库中路网信息，以及历史采集到的各路段静态数据，来初始化路网上各个诱导目标对应待选择终点的Q矢量表，且一个Q矢量表对应一个待选择的终点；步骤1.3：设置交通信息中心发布的Q值信息更新时间间隔T；步骤2：信息更新，具体包括：定义诱导目标权重、当前路网交通拥堵系数计算和每隔T时刻，用Sarsa学习方法更新Q矢量表：(1)定义诱导目标权重：记录路网中所有车辆当前信息，经过当前路段的实时交通信息，以及路网中通行的每个驾驶者的偏好；假设共有n个诱导目标，则每个驾驶者的偏好记作权重矢量ω＝(ω1，...，ωn)，其中，ωo∈[0，1]表示第o个诱导目标对应偏好的权重，定义各诱导目标的权重：每个驾驶者自行定义对每个诱导目标的在意程度，即为每个驾驶者的偏好记权重；(2)当前路网交通拥堵系数计算：统计当前路网中车辆数量NV，并根据当前路网中车辆数量计算当前路网交通拥堵系数∈：其中，β，γ为参数，交通拥堵系数∈表示交通系统当前的交通状况；(3)每隔T时刻，用Sarsa学习方法更新Q矢量表：每隔T时刻，通过(1)中获取的距更新时间最近的各个路段上车辆的实时信息，以及使用步骤3.3和步骤3.4所分配的下一行驶路段对每个诱导目标o，根据Sarsa学习方法分别更新对应终点的Q矢量表，Sarsa学习方法公式如下：其中，为以o为诱导目标从交通节点i出发经过相邻交通节点j且终点为d的Q值，k为交通节点j的相邻交通节点，α为学习率，为车辆v经过路段sij获得的实际奖赏值；步骤3：诱导路径计算，包括步骤3.1～步骤3.5：步骤3.1：Q矢量表归一化：根据步骤2中更新后的Q矢量表，对不同的诱导目标分别采用离差标准化方法归一化对应的Q值，公式如下：其中，为经过路段sij终点为d的诱导目标o的归一化Q值，和分别为终点为d且诱导目标为o所对应的所有路段Q...

【专利技术属性】
技术研发人员：文峰，封筱，
申请(专利权)人：沈阳理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人