一种无人驾驶控制方法及系统技术方案

技术编号:39575458 阅读:11 留言:0更新日期:2023-12-03 19:27
本发明专利技术涉及一种无人驾驶控制方法和系统,包括:构建无人驾驶决策控制模型;利用所述无人驾驶决策控制模型建立数据经验池;利用所述数据经验池对所述无人驾驶决策控制模型进行训练更新,获得更新后的无人驾驶决策控制模型;所述训练更新包括对所述数据经验池进行二次采样;判断所述更新后的无人驾驶决策控制模型是否收敛,若收敛,则训练结束;采用所述收敛的无人驾驶决策控制模型进行控制

【技术实现步骤摘要】
一种无人驾驶控制方法及系统


[0001]本专利技术涉及无人驾驶
,具体涉及一种无人驾驶控制方法及系统


技术介绍

[0002]深度强化学习结合了神经网络的强大特征提取和感知能力,以及强化学习的目标学习能力,以获得更大的累积回报为目标,多维度探索动作,并根据一系列动作的选取和状态的呈现形成策略,可以应用在自动驾驶

机器人控制

视频游戏

无人机

交通路径导航和规划等众多领域,成为人工智能发展史上浓墨重彩的一笔

强化学习究其概念与“试错”二字划不开关系,现有技术中结合了深度学习和强化学习的模型,不仅复现性差,而且样本利用率非常低,改进后也始终是脱离不开离散动作空间的问题以及维度灾难的束缚,现实生活中实际的条件大多连续复杂,且面临收敛和调参困难的问题


技术实现思路

[0003](

)
专利技术目的
[0004]本专利技术的目的是提供一种能加快算法收敛

提高学习效率的无人驾驶控制方法及系统

[0005](

)
技术方案
[0006]为解决上述问题,本专利技术的提供了一种无人驾驶控制方法,包括:
[0007]构建无人驾驶决策控制模型;
[0008]利用所述无人驾驶决策控制模型建立第一数据经验池;
[0009]利用所述第一数据经验池对所述无人驾驶决策控制模型进行训练更新,获得更新后的无人驾驶决策控制模型;所述训练更新包括对所述第一数据经验池进行二次采样;
[0010]判断所述更新后的无人驾驶决策控制模型是否收敛,若收敛,则训练结束;
[0011]采用所述收敛的无人驾驶决策控制模型进行控制

[0012]优选地,利用所述无人驾驶决策控制模型建立第一数据经验池包括:
[0013]初始化所述无人驾驶决策控制模型的参数;
[0014]获取无人驾驶车辆的当前状态,所述当前状态包括环境信息;
[0015]将所述环境信息输入所述无人驾驶决策控制模型,获得无人驾驶车辆执行驾驶行为的动作;
[0016]控制所述无人驾驶车辆执行所获得的动作,根据预设的奖励函数,计算获得奖励值;
[0017]根据预设的状态转移规则和当前状态,获得下一个状态;
[0018]重复上述步骤获得多组元组信息,所述元组信息包括当前状态

动作

奖励值和下一个状态;获取多个序列,利用所述多个序列建立第一数据经验池,所述序列包括一个周期内的多组元组信息

[0019]优选地,利用所述第一数据经验池对所述无人驾驶决策控制模型进行训练更新包
括:
[0020]根据预设的累计回报计算公式,分别计算第一数据经验池中每个序列的累计回报,所述计算公式包括:
[0021]R
t

r
t
+
γ
r
t+1
+
γ2r
t+2
+

+
γ
T

t+1
r
T
‑1[0022]其中,
T
为一个周期的总时长,
r
t
表示在第
t
时刻获取到的奖励值,
r
t+1
表示在第
t+1
时刻获取到的奖励值,
r
T
‑1表示在第
T
‑1时刻获取到的奖励值,
γ
为折扣因子,
γ
的取值大于0且小于
1。
[0023]优选地,利用所述第一数据经验池对所述无人驾驶决策控制模型进行训练更新,还包括:
[0024]根据预设的第一优先级规则,对第一数据经验池中多个序列进行累积回报的第一优先级排序;
[0025]所述预设的第一优先级规则包括:根据每个序列对应累积回报的数值进行降序排列,获得第二数据经验池

[0026]优选地,利用所述第一数据经验池对所述无人驾驶决策控制模型进行训练更新,还包括:
[0027]对第二数据经验池进行第一采样,获得第一采样序列;
[0028]将第一采样序列根据预设的第二优先级规则进行第二优先级排序;
[0029]对进行过第二优先级排序的第一采样序列进行第二采样,获得第二采样序列

[0030]优选地,利用所述第一数据经验池对所述无人驾驶决策控制模型进行训练更新,还包括:
[0031]初始化所述无人驾驶决策控制模型的参数,所述参数包括第一参数

第二参数

第三参数和第四参数;
[0032]将第二采样序列中动作结合熵,获得结合熵的动作;
[0033]将第二采样序列以及结合熵的动作输入到无人驾驶决策控制模型中,根据预设的第一损失函数计算第一损失值,根据所述第一损失值更新第一参数;
[0034]根据预设的第二损失函数计算第二损失值,根据所述第二损失值更新第二参数;
[0035]根据预设的第三损失函数计算第三损失值,根据所述第三损失值更新第三参数;
[0036]按照预设的更新规则对第四参数进行更新

[0037]优选地,所述预设的第一损失函数包括:
[0038][0039]其中,
ψ
为第一参数,
s
t
表示当前状态,
V
ψ
(st)
表示当前状态值函数,
Q
θ
(s
t

a
t
)
表示软
Q
值函数,
π
φ
(a
t
|s
t
)
表示策略函数,表示当前状态
S
t
符合当前分布条件下求期望,表示在动作符合当前策略
π
φ
的条件下求期望

[0040]优选地,所述预设的第二损失函数包括:
[0041][0042]其中,
θ
为第二参数,
s
t
表示当前状态,
Q
θ
(s
t

a
t
)
表示软
Q
值函数,表示软
Q
值函数估计值,表示当前状态
s
t
和动作
a
t
符合当前分布条件下求期望

[0043]优选地,所述预设的第三损失函数包括:
[0044][0045]其中,
φ
为第三参数,
ε
是一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种无人驾驶控制方法,其特征在于,包括:构建无人驾驶决策控制模型;利用所述无人驾驶决策控制模型建立第一数据经验池;利用所述第一数据经验池对所述无人驾驶决策控制模型进行训练更新,获得更新后的无人驾驶决策控制模型;所述训练更新包括对所述第一数据经验池进行二次采样;判断所述更新后的无人驾驶决策控制模型是否收敛,若收敛,则训练结束;采用所述收敛的无人驾驶决策控制模型进行控制
。2.
根据权利要求1所述无人驾驶控制方法,其特征在于:利用所述无人驾驶决策控制模型建立第一数据经验池包括:初始化所述无人驾驶决策控制模型的参数;获取无人驾驶车辆的当前状态,所述当前状态包括环境信息;将所述环境信息输入所述无人驾驶决策控制模型,获得无人驾驶车辆执行驾驶行为的动作;控制所述无人驾驶车辆执行所获得的动作,根据预设的奖励函数,计算获得奖励值;根据预设的状态转移规则和当前状态,获得下一个状态;重复上述步骤获得多组元组信息,所述元组信息包括当前状态

动作

奖励值和下一个状态;获取多个序列,利用所述多个序列建立第一数据经验池,所述序列包括一个周期内的多组元组信息
。3.
根据权利要求1所述无人驾驶控制方法,其特征在于,利用所述第一数据经验池对所述无人驾驶决策控制模型进行训练更新包括:根据预设的累计回报计算公式,分别计算第一数据经验池中每个序列的累计回报,所述计算公式包括:
R
t

r
t
+
γ
r
t+1
+
γ2r
t+2
+

+
γ
T

t+1
r
T
‑1其中,
T
为一个周期的总时长,
r
t
表示在第
t
时刻获取到的奖励值,
r
t+1
表示在第
t+1
时刻获取到的奖励值,
r
T
‑1表示在第
T
‑1时刻获取到的奖励值,
γ
为折扣因子,
γ
的取值大于0且小于
1。4.
根据权利要求3所述无人驾驶控制方法,其特征在于,利用所述第一数据经验池对所述无人驾驶决策控制模型进行训练更新,还包括:根据预设的第一优先级规则,对第一数据经验池中多个序列进行累积回报的第一优先级排序;所述预设的第一优先级规则包括:根据每个序列对应累积回报的数值进行降序排列,获得第二数据经验池
。5.
根据权利要求4所述无人驾驶控制方法,其特征在于,利用所述第一数据经验池对所述无人驾驶决策控制模型进行训练更新,还包括:对第二数据经验池进行第一采样,获得第一采样序列;将第一采样序列根据预设的第二优先级规则进行第二优先级排序;对进行过第二优先级排序的第一采样序列进行第二采样,获得第二采样序列
。6.
根据权利要求5所述无人驾驶控制方法,其特征在于,利用所述第一数据经验池对所述无人驾驶决策控制模型进行训练更新,还包括:初始化所述无人驾驶决策控制模型的参数,所述参数包括第一参数

第二参数

第三参
数和第四参数;将第二采样序列中动作结合熵,获得结合熵的动作;将第二采样序列以及结合熵的动作输入到无人驾驶决策控制模型中,根据预设的第一损失函数计算第一损失值,根据所述第一损失值更新第一参数;根据预设的第二损失函数计算第二损失值,根据所述第二损失值更新第二参数;根据预设的第三损失函数计算第三损失...

【专利技术属性】
技术研发人员:郭瑞岳天舒史弘扬
申请(专利权)人:辽宁工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1