一种基于机器学习策略的距离优先最佳路径选择方法技术

技术编号:21476504 阅读:19 留言:0更新日期:2019-06-29 04:27
一种基于机器学习策略的距离优先最佳路径选择方法(OPABRL)。针对智能驾驶车辆在实际应用中遇到的路径方向、宽度、曲率道路交叉以及路障细节信息,对局部路径进行规划。通过对强化学习算法的了解和学习,设计了一种基于先验知识的强化学习策略的最佳路径选择方法,并在程序中改进了最短路径的搜索方向设置,简化了最短路径搜寻的过程。这种路径优化方法可以有效帮助不同类型智能驾驶车辆顺利规划存在限制高度,宽度和重量以及事故和拥堵障碍条件下的交通网络中的最优路径。通过仿真实验和场景实验,与现有的ACO、GA、ANNs和PSO算法相比较,证明了本发明专利技术所提出的算法具有更好的高效性和实用性。

【技术实现步骤摘要】
一种基于机器学习策略的距离优先最佳路径选择方法
本专利技术属于物联网领域,涉及一种基于机器学习策略的距离优先最佳路径选择方法。
技术介绍
强化学习中最常用的Q-Learning算法通过建立一个评价函数来评价动作的好坏,从而学习出一条整体的最优策略。马尔科夫决策过程为强化学习提供了理论框架,其过程可以用四元数组<S,A,P,R>来描述,其中S代表状态合集;A代表动作合集;P代表状态转移概率矩阵,且即智能体在当前时刻所处状态为s时,执行动作a转移到状态s′的概率;R代表奖励函数,且即智能体在状态s时,做出动作a能够获得的奖励。Q-Learning解决这类问题的思路是首先学会一个动作值函数Q(s,a),即在状态S下执行动作a后得到的Q值,然后根据某些策略进行动作的选择。策略就是在给定状态下,智能体选择动作的规则。比如随机贪婪法策略,就是小于某个概率值就随机选取动作,大于某个概率值就选取Q值最大的动作。同时这样的动作-值函数,也称为奖励函数或者评价函数,学习成功以后,最优策略即可通过选择Q值最大的动作序列来构建,而值函数则是奖励函数累积效应的一种表示,即用来决定最终奖赏值最大的函数,在进行策略选择动作时,要根据目标值函数的最大而不是当前的瞬时奖励函数最大进行。强化学习又称再励学习,它通过感知动态环境的变化并从产生的动作中获取不确定的奖惩值,对动作的优劣做出评价,从而学习动态系统的最优行为策略。这种方法在实际领域中应用的一个重要方面就是智能驾驶车辆的路径规划,通过车辆对环境的不断感知,将获取的信息通过强化学习策略不断学习和反馈,最终获得最优路径。通过引入频率最大Q值启发式学习算法,研究人员对递阶强化学习方法进行改进,解决在庞大状态空间和动态变化环境中对Agent进行最优行为策略学习的问题,引入属性维护算子以及承诺和规划意识属性,使Agent具有在动态环境中进行在线学习的能力,通过对行驶环境的组态设定,和对行驶状态的不断学习,最终获得最优路径。针对路径规划算法收敛速度慢及效率低的问题,有人提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。利用分层强化学习方法的无环境模型学习以及局部更新能力将策略更新过程限制在规模较小的局部空间或维度较低的高层空间上,提高学习算法的性能,并通过三维仿真,证明了算法的在效率和收敛速度等方面的优势。另外,也有学者将模糊神经网络与强化学习相结进行路径规划研究,通过预处理和后置处理策略优化路径的方法来研究在复杂网络环境中移动体的路径规划成功率和最短路径问题。另外在蚁群算法,遗传算法以及粒子群优化算法等为基础的研究领域也吸引了很多研究学者的注意。这些研究都能够有针对性地解决移动路径规划中的一些突出问题:1)路径规划算法收敛速度慢及效率低;2)初始规划路径转弯数多;3)在复杂网络环境中移动体的路径规划成功率和最短路径选择;但是也都需要在未来的研究中进一步地去解决和平衡。当前在智能机器人路径规划和路径选择中常被应用的算法有遗传算法(GeneticAlgorithm,GA)、蚁群优化算法(AntColonyOptimization,ACO)、人工神经网络算法(ArtificialNeuralNetworks,ANNs)以及粒子群算法(ParticleSwarmOptimization,PSO)。但是,在迭代次数和稳定性上,这些算法都有不足,并且在大规模的交通网络下的路径规划和路径选择表现欠佳。
技术实现思路
本专利技术的目的是解决智能车辆行进过程中的路径规划以及路径选择两方面的问题。拟采用强化学习技术以及最短路径算法的搜索方式优化相结合的方式实现智能驾驶车辆路径优先考虑的路径优化,设计一种基于先验知识的强化学习策略的最佳路径选择方法。这种路径优化方法可以有效帮助不同类型智能驾驶车辆顺利规划存在限制高度,宽度和重量以及事故和拥堵障碍条件下的交通网络中的最优路径。本专利技术设计的OPABRL智能驾驶车辆路径选择算法,车辆通过适当先验知识与强化学习Q-Learning算法结合的方式,获得基于先验知识的强化学习策略,并根据这种策略,在未知环境中实现智能驾驶车辆路径规划。本算法中设计解决这种问题的原理是通过智能体执行一个动作集内的动作以后,从一个状态转换成为另一个状态。并同时会提供一个立即回报值。智能体的目标就是最大化它的总回报值,通过学习使每个状态对应的选择动作是最优的。这里的动作最优指的是这个动作执行以后,从最终结果来看可以获得最大的回报值。这个回报值的计算是将当前状态执行所有接下来动作的各个预测回报值乘以它的权重然后加和。强化学习算法的一个好处就是,它不需要知道环境模型就可以比较可选动作的期待回报值。另一个好处是不用作任何修改,就可以处理随机转换和回报值的问题。本专利技术的基于机器学习策略的距离优先最佳路径选择方法主要步骤为:第1、强化学习先验知识训练,车辆控制器与已知环境交互,获得先验知识,将这一次训练过程记为一次学习过程;同时通过不断学习,定时更新参数设定中参考预估值,参数可以是最短行驶路程,也可以是最少行驶时间,或者是综合代价最小作为标准,这种标准可以由所有代价分别按照不同权值进行换算,而这种权值的规定则需要强化学习在不断学习的过程中进行多次动态调整,直至变化保持在设定阈值范围内;第2、通过用户输入的起始点和终点位置生成初始路径,并对路径进行预处理,将不含负权边的交通网络抽象表示为拓扑图G(V,E,W),其中V,E,W分别表示节点集合,边集合和边的权值集合,并简化为数学模型;第3、根据预处理后的路径,进行对智能驾驶车辆的路径规划:第3.1、对所规划范围区域进行栅格化,建立网络拓扑;结合智能驾驶车辆行驶环境,采用栅格法来构建环境地图;这一过程分为两个步骤:第3.1.1、对于车辆行驶的区域进行边界学习;第3.1.2、采用矩形网格的形式,将整个环境区域划分为网格,然后把整个实际环境与每个网格区域相映射,最终实现实际环境的离散化,生成环境地图;第3.2、优化最短路径算法求最短路径,考虑智能驾驶车辆在工作中的动态变化的环境,结合A*算法进行路径规划,提出OPABRL算法;第3.2.1、对于最短路径算法的优化;第3.2.2、与动态变化的环境进行交互,判断行径过程中的障碍栅格并进行处理;第4、选择和判定最优路径,到达终点。OPABRL最佳路径选择方法流程图如附图1所示。其中,在第1步所述的强化学习先验知识训练的部分与第3.1步所述对规划范围区域进行栅格化,建立网络拓扑部分在逻辑上可以并列进行,但是因为在算法运行过程中,不涉及整体的学习过程,只应用其结果并不断更新和完善先验数据,因此可以将第1步的先验知识学习训练的部分先单独进行,然后在算法运行过程中,通过更新参考预估值来进行不断的调整,以此对数据进行定时的更新。本专利技术的优点和积极效果本专利技术主要针对智能驾驶车辆的路径规划问题设计了一种优化算法。首先设计了基于先验知识强化学习策略,结合最短路径算法提出了一种智能驾驶车辆路径规划的优化算法。这种算法在使用中可以通过不断训练学习,在后面的搜索和使用中,对已经归为先验知识的障碍的处理变得快捷,并优化最短路径算法的搜索设置,对路径的优化进行了指标分析。通过仿真实验,将本专利技术算法与常用的几种路本文档来自技高网
...

【技术保护点】
1.一种基于机器学习策略的距离优先最佳路径选择方法,其特征在于包括如下步骤:第1、强化学习先验知识训练,车辆控制器与已知环境交互,获得先验知识,将这一次训练过程记为一次学习过程;同时通过不断学习,定时更新参数设定中参考预估值,参数可以是最短行驶路程,也可以是最少行驶时间,或者是综合代价最小作为标准,这种标准可以由所有代价分别按照不同权值进行换算,而这种权值的规定则需要强化学习在不断学习的过程中进行多次动态调整,直至变化保持在设定阈值范围内;第2、通过用户输入的起始点和终点位置生成初始路径,并对路径进行预处理,将不含负权边的交通网络抽象表示为拓扑图G(V,E,W),其中V,E,W分别表示节点集合,边集合和边的权值集合,并简化为数学模型;第3、根据预处理后的路径,进行对智能驾驶车辆的路径规划:第3.1、对所规划范围区域进行栅格化,建立网络拓扑;结合智能驾驶车辆行驶环境,采用栅格法来构建环境地图;这一过程分为两个步骤:第3.1.1、对于车辆行驶的区域进行边界学习;第3.1.2、采用矩形网格的形式,将整个环境区域划分为网格,然后把整个实际环境与每个网格区域相映射,最终实现实际环境的离散化,生成环境地图;第3.2、优化最短路径算法求最短路径,考虑智能驾驶车辆在工作中的动态变化的环境,结合A*算法进行路径规划,提出OPABRL算法;第3.2.1、对于最短路径算法的优化;第3.2.2、与动态变化的环境进行交互,判断行径过程中的障碍栅格并进行处理;第4、选择和判定最优路径,到达终点。...

【技术特征摘要】
1.一种基于机器学习策略的距离优先最佳路径选择方法,其特征在于包括如下步骤:第1、强化学习先验知识训练,车辆控制器与已知环境交互,获得先验知识,将这一次训练过程记为一次学习过程;同时通过不断学习,定时更新参数设定中参考预估值,参数可以是最短行驶路程,也可以是最少行驶时间,或者是综合代价最小作为标准,这种标准可以由所有代价分别按照不同权值进行换算,而这种权值的规定则需要强化学习在不断学习的过程中进行多次动态调整,直至变化保持在设定阈值范围内;第2、通过用户输入的起始点和终点位置生成初始路径,并对路径进行预处理,将不含负权边的交通网络抽象表示为拓扑图G(V,E,W),其中V,E,W分别表示节点集合,边集合和边的权值集合,并简化为数学模型;第3、根据预处理后的路径,进行对智能驾驶车辆的路径规划:第3.1、对所规划范围区域进行栅格化,建立网络拓扑;结合智能驾驶车辆行驶环境,采用栅格法来构建环境地图;这一过程分为两个步骤:第3.1.1、对于车辆行驶的...

【专利技术属性】
技术研发人员:张德干龚倡乐刘晓欢张婷崔玉亚宋金杰
申请(专利权)人:天津理工大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1