适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统技术方案

技术编号:27848300 阅读:28 留言:0更新日期:2021-03-30 13:04
本发明专利技术公开了适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统,所述学习方法包括驾驶决策问题建立及驾驶策略的表征;神经网络经验模型建立;连续驾驶决策变量求解;离散驾驶决策变量学习;其基于以上实际问题的需求,对于应用场景多变且难以事先获得的包含连续控制的控制问题,可使用基于模型的方法对于强化学习中的动作空间进行有效搜索,并使驾驶策略快速迭代。并使驾驶策略快速迭代。并使驾驶策略快速迭代。

【技术实现步骤摘要】
适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统


[0001]本专利技术涉及无人驾驶
,尤其涉及适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统。

技术介绍

[0002]随着强化学习技术不断发展,其被越来越多的应用到各个问题中。因此,针对于不同控制问题,对强化学习在实际应用时的算法效率进一步地提出了要求。在控制领域,针对连续控制问题,一般而言,无模型的强化学习算法缺乏高的算法效率及算法稳定性。为提高算法效率及稳定性,已有一些强化学习领域的专业方法及技术被提出,例如,异步更新策略,预训练方法,回报整型技术等,同时利用基于模型的优化控制器采样的确定性策略方法具有很高的算法效率及稳定性。
[0003]对于例如在人车混合的车辆控制领域的无人驾驶车辆的驾驶决策问题,由于他车行为难以准确预测,且容易发生突然改变。因此,环境中常存在不确定性因素,难以被事先准确预知。而环境一旦发生,智能体受当前策略影响,合适的驾驶策略会区别于常规情况下的驾驶决策。在此种多变的交互环境中,智能体应能自适应地与环境车辆发生交互本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.适用于无人驾驶的嵌入优化式控制方法,其特征在于,包括以下步骤,步骤一、驾驶决策问题建立及驾驶策略的表征;基于强化学习方法,将驾驶决策建模为马尔科夫决策过程;基于马尔科夫决策过程的驾驶决策包含表征本车与周车相对状态的状态向量S;以及基于参数化驾驶决策框架,表征本车的驾驶决策的动作向量A;动作向量A包含离散的决策变量,终端相对于本车道中心线的侧向偏移T
y
,指向车道保持、左换道、右换道等驾驶行为,以及连续的决策变量,期望加速度a
tar
,动作时间t
a
;通过动作向量A=(T
y
,a
tar
,t
a
)
T
表征驾驶决策,并作为输入变量输入下层的轨迹规划层和车辆控制层;车辆控制系统执行驾驶决策后,根据设计的回报函数得到回报信号,作为训练数据;最终通过强化学习算法对驾驶策略进行学习更新;步骤二、神经网络经验模型建立;首先,不同连续决策量下轨迹数据的收集:轨迹规划模块可执行的连续决策量的取值通常在预设范围内;其次,轨迹特征点提取以及训练数据生成;在得到的轨迹数据集中,对数据集中的每个轨迹使用若干轨迹特征点表示,这些轨迹特征点分别为纵向参数l
x
,侧向参数序列l
y,1
,l
y,2
,...,l
y,5
,时间参数序列l
t,1
,l
t,2
,...,l
t,5
;纵向参数l
x
可以表示为式(1),其中s
x
为纵向位移,v
h,0
为初始速度,t
a
为动作时间。纵向参数l
x
主要受期望加速度a
tar
影响。在侧向运动中,提取了五个轨迹特征点,计算他们的侧向参数和对应的时间参数组成侧向参数序列l
y,1
,l
y,2
,...,l
y,5
,和时间参数序列l
t,1
,l
t,2
,...,l
t,5
。这些轨迹特征点的纵向位移分别为1/8l
x
,1/4l
x
,1/2l
x
,3/4l
x
,7/8l
x
。相应地,第i个侧向参数l
y,i
和时间参数l
t,i
可以表示为式(2)和式(3),为式(2)和式(3),其中s
y,i
,t
i
分别为第i个轨迹特征点的侧向位移和时间。L为相邻车道侧向位移,t
a
为动作时间;最后,神经网络经验模型训练;使用当前初始速度v
h,0
,期望加速度a
tar
,动作时间t
a
作为输入向量,得到的轨迹特征点分别为纵向参数l
x
,侧向参数序列l
y,1
,l
y,2
,...,l
y,5
,时间参数序列l
t,1
,l
t,2
,...,l
t,5
作为数据集,分别训练三个神经网络;步骤三、连续驾驶决策变量求解;智能体强化学习Actor

Critic框架的Actor动作网络根据状态变量S输出决策变量A=(T
y
,a
tar
,t
a
)
T
,将期望加速度a
tar
,动作时间t
a
作为初始值输入到基于模型设计的直接搜索算法中,通过训练得到的神经网络根据决策变量模拟本车轨迹的变化,结合周车意图行为
及轨迹的预测,最终通过优化求解得到使得性能指标函数最小的连续驾驶决策变量期望加速度a
tar
,动作时间;步骤四、离散驾驶决策变量学习;将以上步骤三所述的连续驾驶决策变量的求解方法嵌入强化学习Actor

Critic框架的Actor中。Actor包含步骤一和步骤二的结果,以及步骤三所述的各个步骤,然后进入步骤四开始学习;该学习过程针对离散驾驶决策变量终端相对于本车道中心线的侧向偏移T
y
。智能体从环境中读取当前状态向量S,输入到Actor,最终得到动作向量;输入到Critic网络,得到状态值函数的估计值;执行动作得到回报;计算优势函数对Actor和Critic网络进行更新调整。2.如权利要求1所述的适用于无人驾驶的嵌入优化式控制方法,其特征在于,神经网络经验模型训练中,将结合遗传算法用于BP神经网络训练。3.如权利要求2所述的适用于无人驾驶的嵌入优化式控制方法,其特征在于,连续驾驶决策变量求解包括以下步骤,首先,本车与周车运动模拟:根据状态变量S作为输入状态,智能体强化学习Actor

Critic框架的Actor动作网络,通过神经网络正向传递得到输出的决策变量A=(T
y
,a
tar
,t
a
)
T
。然后使用当前初始速度v
h,0
,期望加速度a
...

【专利技术属性】
技术研发人员:张羽翔王玉海丛岩峰高炳钊陈虹
申请(专利权)人:吉林大学青岛汽车研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1