一种基于改进型深度强化学习的车辆自动控制方法技术

技术编号:37504356 阅读:16 留言:0更新日期:2023-05-07 09:40
本发明专利技术公开了一种基于改进型深度强化学习的车辆自动控制方法,包括:获取车辆感知信息矩阵;构建价值网络与目标网络,根据贪婪算法和车辆感知信息矩阵得到环境交互感知信息矩阵;构建奖励函数,基于环境交互感知信息矩阵与奖励函数,得到经验回放数组数据,基于经验回放数组数据得到更新后的目标网络;构建目标网络的折扣率,基于折扣率通过时间差分算法对更新后的目标网络得到误差数据,对价值网络进行反向传播得到梯度数据,通过梯度数据对价值网络进行更新,并采用软更新方式对更新后的目标网络进行优化,通过优化后的目标网络及更新后的价值网络得到车辆控制数据以实现车辆自动控制。自动控制。自动控制。

【技术实现步骤摘要】
一种基于改进型深度强化学习的车辆自动控制方法


[0001]本申请涉及人工智能与深度学习领域,特别是涉及一种基于改进型深度强化学习的车辆自动控制方法。

技术介绍

[0002]强化学习是一种学习如何从状态映射到行为以使得获取的奖励最大的学习机制。这样的一个智能体不断地在环境中进行实验,通过环境给予的反馈来不断优化状态

行为的对应关系。因此,反复试错实验和延迟奖励是强化学习最重要的两个特征。
[0003]现有决策方法中的无模型强化学习算法不需要事先知道环境的奖励函数与状态转移函数,而是直接使用和环境交互的过程中采样得到的数据来学习,这使得其被广泛用于游戏、机器人控制与无人驾驶决策领域。作为最经典的无模型强化学习算法,DQN为了提高样本数据的利用率,采用了时间差分算法,这就导致了对Q值的过高估计。为了减小此高估问题,双DQN算法、对决DQN算法以及优先经验回放DQN算法相继被提出以减小神经网络的传播的误差。但这些优化算法只是降低了误差中的估计误差,对于减小目标近似误差没有显著的作用。由此可见,仍缺少一种有效可行的决策方法,在保证高数据利用率和探索能力的基础上,减少现有方法中存在的目标近似偏差及偏差传播问题,综上,上述现有方法无法对无人驾驶中的无人车辆进行有效的决策。

技术实现思路

[0004]本专利技术的目的是提供一种基于改进型深度强化学习的车辆自动控制方法,以解决上述现有技术中存在的现有算法无法满足无人驾驶领域中无人车辆有效决策的问题。
[0005]为实现上述目的,本专利技术提供了一种基于改进型深度强化学习的车辆自动控制方法,包括:
[0006]一种基于改进型深度强化学习的车辆自动控制方法,其特征在于,包括以下步骤:
[0007]获取车辆感知信息矩阵;
[0008]构建价值网络与目标网络,根据贪婪算法对车辆感知信息矩阵与价值网络进行分析,得到环境交互感知信息矩阵;
[0009]构建奖励函数,基于环境交互感知信息矩阵与奖励函数,得到经验回放数组数据,基于经验回放数组数据对价值网络及目标网络进行前向传播,得到更新后的目标网络;
[0010]构建目标网络的折扣率,基于折扣率通过时间差分算法对更新后的目标网络进行分析计算,得到误差数据,对价值网络进行反向传播得到梯度数据,通过梯度数据对价值网络进行更新,并采用软更新方式对更新后的目标网络进行优化,通过优化后的目标网络及更新后的价值网络得到车辆控制数据以实现车辆自动控制。
[0011]可选地,获取车辆感知信息数据,所述车辆感知信息数据包括:每辆车的速度、横向位置、纵向位置、车辆所在当前道路交通信号与车辆种类,分别表示为:[V
i
,X
i
,Y
i
,L
i
,I
i
],
[0012]基于车辆感知信息构建车辆感知信息矩阵N
t

[0013][0014]可选地,获取环境交互感知信息矩阵的过程包括:
[0015]通过神经网络对车辆感知信息矩阵进行识别,得到特征信息矩阵,将特征信息矩阵输入到价值网络,根据贪婪算法得到对应动作数据a


[0016][0017]式中为动作集合,ω为网络的参数,argmax
a Q(s
t
,a;ω)为价值最大的动作,a为动作,s
t
为当前时间的状态信息;
[0018]基于对应动作数据,得到环境交互感知信息矩阵。
[0019]可选地,获取经验回放数组数据的过程包括:根据环境交互感知信息矩阵与奖励函数计算得到交互数据,其中,所述奖励函数包括:碰撞惩罚、速度奖励、舒适度奖励、等待时长惩罚,交互数据包括交互后的时间数据、步长数据、奖励值数据及状态信息,将交互数据整合为四元组,并将所有四元组存入经验回放数组,得到经验回放数组数据。
[0020]可选地,对目标网络进行更新的过程包括:随机从经验回放数组中提取一个四元组,通过提取的四元组对价值网络进行前向传播,得到预测状态动作数据,通过预测状态动作数据对目标网络进行前向传播,得到更新后的目标网络:
[0021][0022][0023]其中ω
now
为比例DQN的当前价值网络的参数,ω
new
为下一次价值网络更新后的参数;为当前的目标网络参数,为下一次目标网络更新后的参数;为当前价值网络,Qi为多次更新后的目标网络,s
t
与s
t+1
为当前时刻与下一时刻的状态信息,第i次更新的目标网络参数。
[0024]可选地,获取误差数据的步骤包括:将更新后的目标网络储存到栈内,构建目标Q网络折扣率为η=0.5,基于更新后的目标网络及折扣率计算目标值
[0025][0026]设置最多储存目标网络数目为K;
[0027]基于目标值,计算时间差分目标与时间差分误差δ
t

[0028][0029][0030]其中Y为折扣率,基于时间差分目标及时间差分误差,通过时间差分算法对更新后的目标网络进行分析计算,得到误差数据。
[0031]可选地,通过梯度数据对价值网络进行更新的过程包括:通过价值网络的反向传
播计算梯度数据并所述梯度数据对价值网络进行更新:
[0032][0033]可选地,采用软更新方式对更新后的目标网络进行优化的过程包括:采用软更新方式优化更新后的目标网络的参数:
[0034][0035]其中τ为软更新率。
[0036]本专利技术的技术效果为:
[0037]通过上述技术方案,能够准确对无人驾驶车辆进行有效决策,本专利技术将多次更新的目标网络储存到栈内,同时设置最多储存目标网络数目,随着目标网络参数的不断更新,栈内的目标网络不断被替换。设置目标网络折扣率为ηη=0.5来计算目标均值进而保持目标均值与原DQN算法目标均值一致,保证了高数据利用率和探索能力,利用时间差分算法计算误差,同时利用梯度与软更新方式更新当前Q网络与目标Q网络参数进而减少现有的无模型强化学习算法存在的目标近似偏差及偏差传播问题,以解决上述现有技术中存在的方法无法满足无人驾驶领域中无人车辆有效决策的问题。
附图说明
[0038]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0039]图1为本专利技术实施例中的比例DQN算法在交通场景中训练无人车的流程;
[0040]图2为本专利技术实施例中的比例DQN与传统DQN的仿真结果;
[0041]图3为本专利技术实施例中的M步状态下单向马尔可夫决策过程。
具体实施方式
[0042]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0043]实施例一
[0044本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进型深度强化学习的车辆自动控制方法,其特征在于,包括以下步骤:获取车辆感知信息矩阵;构建价值网络与目标网络,根据贪婪算法对车辆感知信息矩阵与价值网络进行分析,得到环境交互感知信息矩阵;构建奖励函数,基于环境交互感知信息矩阵与奖励函数,得到经验回放数组数据,基于经验回放数组数据对价值网络及目标网络进行前向传播,得到更新后的目标网络;构建目标网络的折扣率,基于折扣率通过时间差分算法对更新后的目标网络进行分析计算,得到误差数据,对价值网络进行反向传播得到梯度数据,通过梯度数据对价值网络进行更新,并采用软更新方式对更新后的目标网络进行优化,通过优化后的目标网络及更新后的价值网络得到车辆控制数据以实现车辆自动控制。2.根据权利要求1所述的一种基于改进型深度强化学习的车辆自动控制方法,其特征在于,获取车辆感知信息数据,所述车辆感知信息数据包括:每辆车的速度、横向位置、纵向位置、车辆所在当前道路交通信号与车辆种类,分别表示为:[V
i
,X
i
,Y
i
,L
i
,I
i
],基于车辆感知信息构建车辆感知信息矩阵N
t
:3.根据权利要求1所述的一种基于改进型深度强化学习的车辆自动控制方法,其特征在于,获取环境交互感知信息矩阵的过程包括:通过神经网络对车辆感知信息矩阵进行识别,得到特征信息矩阵,将特征信息矩阵输入到价值网络,根据贪婪算法得到对应动作数据a

:式中为动作集合,ω为网络的参数,argmax
a
Q(s
t
,a;ω)为价值最大的动作,a为动作,s
t
为当前时间的状态信息;基于对应动作数据,得到环境交互感知信息矩阵。4.根据权利要求1所述的一种基于改进型深度强化学习的车辆自动控制方法,其特征在于,获取经验回放数组数据的过程包括:根据环境交互感知信息矩阵与奖励函数计算得到交互数据,其中...

【专利技术属性】
技术研发人员:李雪原高鑫刘琦杨帆刘浩朱昱铮
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1