一种用于具有挂车的车辆的车道保持强化学习方法及系统技术方案

技术编号:22715561 阅读:18 留言:0更新日期:2019-12-04 02:20
本发明专利技术公开了用于具有挂车的车辆的车道保持强化学习方法和系统,所述车辆包括牵引车和挂车,该方法包括根据当前车辆状态量获取增强信号;对当前车辆状态量和增强信号进行强化学习,更新决策动作;根据更新后的决策动作获得更新后的车辆状态量和更新后的增强信号,对更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作。本发明专利技术通过不断地更新反馈增强信号,从而获得车辆的速度、重量、航向角、车道线距离与所需方向盘转角、角速度的对应关系,并将最优的对应关系作为自动驾驶经验储存,保证车道保持的稳定性及自适应性。

A lane keeping reinforcement learning method and system for vehicles with trailers

The invention discloses a lane keeping reinforcement learning method and system for a vehicle with a trailer, the vehicle includes a tractor and a trailer, the method includes obtaining an enhancement signal according to the current vehicle state amount, carrying out reinforcement learning on the current vehicle state amount and enhancement signal, updating the decision action, obtaining the updated vehicle state amount and the updated vehicle state amount according to the updated decision action In order to adjust the decision-making action, the updated vehicle state and the updated enhanced signal are studied. By continuously updating the feedback enhancement signal, the invention obtains the corresponding relationship between the speed, weight, heading angle, lane line distance of the vehicle and the required steering wheel angle and angular speed, and stores the optimal corresponding relationship as the automatic driving experience to ensure the stability and adaptability of lane maintenance.

【技术实现步骤摘要】
一种用于具有挂车的车辆的车道保持强化学习方法及系统
本专利技术涉及自动驾驶车辆
,特别是涉及一种用于具有挂车的车辆的车道保持强化学习方法及系统。
技术介绍
现有技术中的卡车的结构如图1所示,该卡车的结构包括牵引车1和挂车2这两部分;其中,3为牵引车1的质点(即卡车的后轮轴中心),4为挂车2的质点(即挂车2的后轮轴中心)。通常,卡车满载的重量是普通轿车的20-25倍,卡车的长度是普通轿车的4-5倍,且卡车的结构为非统一的整体(即包含牵引车和挂车);所以,卡车在道路行驶过程中,卡车对车辆自身的控制与普通轿车相比更为复杂且要求更高。卡车在车道内行驶,除了需要将牵引车1保持在车道内外,还需要将挂车2保持在车道内。由于卡车在空载、半载、满载状态时的重量不同、行驶速度也不同,如果在行驶过程中由于驾驶操作不当,如:对方向盘转角、转向角速度控制不当,卡车将会出现如图2所示的直线车道行驶过程中的甩挂现象以及如图3所示的过弯行驶过程中的刮碰现象。卡车自动驾驶车道保持方法,需要卡车拥有经验丰富的卡车驾驶员的“大脑”,以实现卡车在直线车道、弯道的平稳行驶。传统的卡车自动驾驶车道保持方法多数是采用监督学习方式,即:人为定义卡车速度、重量、航向角、车道线距离与所需方向盘转角、角速度、纵向加/减速度(油门、刹车)的对应关系,根据该对应关系,自动驾驶系统选取相应的方向盘转角、角速度调整决策动作,以保证车辆在车道线内平稳行驶。然而,上述的卡车自动驾驶车道保持方法存在以下几个技术问题:1.由于人为设定上述对应关系,那么就需要大量的试验数据,而试验数据的分析、分类具有一定的主观性,因此得到的试验数据不够准确;2.卡车的试验数据量非常庞大,因此将卡车的所有速度、重量、航向角、车道线距离与所需方向盘转角、角速度、纵向加/减速度(油门、刹车)的对应关系一一列出存在很大的难度;3.现有技术中的监督学习方式仅考虑了牵引车1对车道保持的控制,而忽略了挂车2对车道保持的控制,因此很容易造成挂车2在行驶过程中出现左右摇摆现象。综上,现有技术中的监督学习的自动驾驶车道保持方法,其稳定性和自适应性均不够强大。
技术实现思路
基于
技术介绍
中的技术问题,本专利技术提出了一种用于具有挂车的车辆的车道保持强化学习方法及系统,以增强其稳定性和自适应性,从而解决现有技术中存在的至少一个技术问题。第一方面,本专利技术提出的一种用于具有挂车的车辆的车道保持强化学习方法,所述车辆包括牵引车和挂车,该方法包括以下步骤:根据当前车辆状态量获取增强信号,所述车辆状态量至少包括:牵引车航向角、牵引车质点到一侧车道线的距离、挂车航向角和挂车质点到所述一侧车道线的距离;对当前车辆状态量和增强信号进行强化学习,更新决策动作;根据更新后的决策动作获得更新后的车辆状态量和更新后的增强信号,对所述更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作。可选的,所述根据当前车辆状态量获取增强信号包括以下子步骤:S110:初始化车辆状态量;S120:判断训练的次数是否小于设定的最大训练次数,若是,计算车辆的下一状态量;当训练的次数达到设定的最大训练次数时,学习训练结束;S130:判断训练的步长是否小于预先设定的最大步长,若是,计算增强信号;当训练的步长大于或等于预先设定的最大步长时,返回步骤S120。可选的,所述计算增强信号包括以下子步骤:根据当前车辆状态量确定牵引车相对于质点中心偏移量和挂车相对于质点中心偏移量;根据当前车辆状态量、牵引车相对于质点中心偏移量和挂车相对于质点中心偏移量确定所述增强信号。可选的,所述增强信号是通过以下公式来确定的;当θ1(t)≥0且d2(t)≥d1(t)时,确定所述增强信号r(t)=r0;当θ2(t)≥0且d4(t)≥d3(t)时,确定所述增强信号r(t)=r0;当θ1(t)<0且d1(t)+d2(t)≥d时,则确定所述增强信号r(t)=r0;当θ2(t)<0且d3(t)+d4(t)≥d时,确定所述增强信号r(t)=r0;其他情况下,所述增强信号通过以下公式确定为:其中,r0为预设的最小增强信号数值;d1(t)为牵引车质点到其中一侧车道线的距离,d2(t)为牵引车相对于质点中心偏移量;θ2(t)为t时刻挂车的航向角,d3(t)为挂车质点到所述其中一侧车道线的距离,d4(t)为挂车相对于质点中心偏移量;d为左侧车道线和右侧车道线之间的宽度;α为预设的牵引车的控制权重(0<α<1),1-α为预设的挂车的控制权重。可选的,所述对所述更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作包括以下子步骤:判断更新后的增强信号是否等于r0,若是,则训练步长加1,返回步骤S120;若更新后的增强信号不等于r0,则根据更新后的增强信号的数值,获得决策动作的反馈结果,由所述决策动作的反馈结果来调整决策动作。可选的,所述决策动作包括方向盘转角、方向盘角速度、纵向加/减速度。第二方面,本专利技术提出的一种用于具有挂车的车辆的车道保持强化学习系统,所述车辆包括牵引车和挂车,该系统包括获取模块、更新模块和调整模块;所述获取模块用于根据当前车辆状态量获取增强信号,所述车辆状态量至少包括:牵引车航向角、牵引车质点到一侧车道线的距离、挂车航向角和挂车质点到所述一侧车道线的距离;所述更新模块用于对当前车辆状态量和增强信号进行强化学习,更新决策动作;所述调整模块用于根据更新后的决策动作获得更新后的车辆状态量和更新后的增强信号,对所述更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作。可选的,所述获取模块包括初始化单元、第一计算单元和第二计算单元;其中,所述初始化单元用于初始化车辆状态量;所述第一计算单元用于判断训练的次数是否小于设定的最大训练次数,若是,计算车辆的下一状态量;当训练的次数达到设定的最大训练次数时,学习训练结束;所述第二计算单元用于判断训练步长是否小于预先设定的最大步长,若是,计算增强信号;当训练的步长大于或等于预先设定的最大步长时,返回执行第一计算单元的操作。可选的,所述第二计算单元执行以下操作:根据当前车辆状态量确定牵引车相对于质点中心偏移量和挂车相对于质点中心偏移量;根据当前车辆状态量、牵引车相对于质点中心偏移量和挂车相对于质点中心偏移量确定所述增强信号。可选的,所述调整模块执行以下操作:判断更新后的增强信号是否等于r0,若是,训练步长加1,则返回执行第一计算单元的操作;若更新后的增强信号不等于r0,将则根据更新后的增强信号的数值,获得决策动作的反馈结果,由所述决策动作的反馈结果来调整决策动作;其中,所述r0为预设的最小增强信号数值。与现有技术相比,本专利技术的有益效果是:本实施例的车道保持的自主强化学习本文档来自技高网
...

【技术保护点】
1.一种用于具有挂车的车辆的车道保持强化学习方法,所述车辆包括牵引车和挂车,该方法包括以下步骤:/n根据当前车辆状态量获取增强信号,所述车辆状态量至少包括:牵引车航向角、牵引车质点到一侧车道线的距离、挂车航向角和挂车质点到所述一侧车道线的距离;/n对当前车辆状态量和增强信号进行强化学习,更新决策动作;/n根据更新后的决策动作获得更新后的车辆状态量和更新后的增强信号,对所述更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作。/n

【技术特征摘要】
1.一种用于具有挂车的车辆的车道保持强化学习方法,所述车辆包括牵引车和挂车,该方法包括以下步骤:
根据当前车辆状态量获取增强信号,所述车辆状态量至少包括:牵引车航向角、牵引车质点到一侧车道线的距离、挂车航向角和挂车质点到所述一侧车道线的距离;
对当前车辆状态量和增强信号进行强化学习,更新决策动作;
根据更新后的决策动作获得更新后的车辆状态量和更新后的增强信号,对所述更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作。


2.根据权利要求1所述的车道保持强化学习方法,其特征在于:所述根据当前车辆状态量获取增强信号包括以下子步骤:
S110:初始化车辆状态量;
S120:判断训练的次数是否小于设定的最大训练次数,若是,计算车辆的下一状态量;当训练的次数达到设定的最大训练次数时,学习训练结束;
S130:判断训练的步长是否小于预先设定的最大步长,若是,计算增强信号;当训练的步长大于或等于预先设定的最大步长时,返回步骤S120。


3.根据权利要求2所述的车道保持强化学习方法,其特征在于:所述计算增强信号包括以下子步骤:
根据当前车辆状态量确定牵引车相对于质点中心偏移量和挂车相对于质点中心偏移量;
根据当前车辆状态量、牵引车相对于质点中心偏移量和挂车相对于质点中心偏移量确定所述增强信号。


4.根据权利要求3所述的车道保持强化学习方法,其特征在于:所述增强信号是通过以下公式来确定的;
当θ1(t)≥0且d2(t)≥d1(t)时,确定所述增强信号r(t)=r0;
当θ2(t)≥0且d4(t)≥d3(t)时,确定所述增强信号r(t)=r0;
当θ1(t)<0且d1(t)+d2(t)≥d时,则确定所述增强信号r(t)=r0;
当θ2(t)<0且d3(t)+d4(t)≥d时,确定所述增强信号r(t)=r0;
其他情况下,所述增强信号通过以下公式确定为:



其中,r0为预设的最小增强信号数值;d1(t)为牵引车质点到其中一侧车道线的距离,d2(t)为牵引车相对于质点中心偏移量;θ2(t)为t时刻挂车的航向角,d3(t)为挂车质点到所述其中一侧车道线的距离,d4(t)为挂车相对于质点中心偏移量;d为左侧车道线和右侧车道线之间的宽度;α为预设的牵引车的控制权重(0<α<1),1-α为预设的挂车的控制权重。


5.根据权利要求4所述的车道保持强化学习方法,其...

【专利技术属性】
技术研发人员:方啸
申请(专利权)人:苏州智加科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利