当前位置: 首页 > 专利查询>吉林大学专利>正文

一种改进深度强化学习的智能汽车类人跟驰行为控制方法技术

技术编号:36952030 阅读:21 留言:0更新日期:2023-03-22 19:12
本发明专利技术提供一种改进深度强化学习的智能汽车类人跟驰行为控制方法,包括第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据;第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p;第三步,构建跟驰行为策略模型;第四步,训练模型。本发明专利技术复合奖励函数的设置及通过奖励评估器动态调节复合奖励函数的权重的设置能够保障本发明专利技术类人跟驰行为策略模型具有良好的类人特性,在降低人机差异的同时,提高了智能汽车的用户接受度、信任度和社会认同度,减少了本发明专利技术类人跟驰行为策略模型的训练时间,并提高了最终训练完成的模型的输出效果。出效果。出效果。

【技术实现步骤摘要】
一种改进深度强化学习的智能汽车类人跟驰行为控制方法


[0001]本专利技术涉及一种智能汽车类人跟驰行为控制方法,特别涉及一种基于改进深度强化学习方法的智能汽车类人跟驰行为控制方法。

技术介绍

[0002]随着汽车的智能化技术不断提高,配备智能驾驶系统的自动驾驶智能汽车的保有量不断增加。跟驰行为是微观交通流的核心组成部分,对研究车辆间的博弈行为及所在车道的交通流特性至关重要。为了提高智能汽车的社会认同度、用户信任度和接受度、提升交通效率并降低由于人机差异造成事故的风险,智能汽车应当具备与人类相似的跟驰行为策略。深度强化学习是一种结合强化学习方法与深度学习,通过探索试错的方式以获得最大的期望回报,找到最优的行为策略的方法,是建模跟驰行为策略的有利工具,可以通过深度强化学习方法,结合真实人类驾驶员数据训练类人跟驰行为策略模型。然而,目前基于深度强化学习的类人跟驰行为策略模型仍具有一些不足,例如:
[0003](1)基于深度强化学习的跟驰行为策略模型训练时间过长,难以收敛。现有基于深度强化学习的类人跟驰行为策略模型在训练时通过随机探索环境后环境给出的奖励更新自己的策略,并最终使得策略达到最优,由于跟驰环境数据的多样复杂,使得这一个随机探索过程通常较为漫长,难以收敛。
[0004](2)基于深度强化学习的类人跟驰行为策略模型学习到的类人跟驰行为策略大多是对人类驾驶员行为的模仿,难以做出持平甚至超越人类驾驶员水平的行为。现有基于深度强化学习的类人跟驰行为策略模型的输入为真实人类跟驰行为数据,模型训练的优化目标仅仅是使得跟驰行为策略更像人类,这种单目标的、不会动态调整的优化策略降低了跟驰行为策略模型输出行为的水平上限,难以做出持平甚至超越人类驾驶员水平的行为。
[0005]综上所述,如何有效地利用深度强化学习方法,开发具有高度类人化特性、训练时间较短且能给出持平甚至超越人类驾驶员水平的跟驰行为的控制方法,已成为智能汽车领域亟待解决的关键技术难题。

技术实现思路

[0006]为了解决上述技术问题,本专利技术提供一种改进深度强化学习的智能汽车类人跟驰行为控制方法,包括以下步骤:
[0007]第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据;
[0008]第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p;
[0009]第三步,构建跟驰行为策略模型,包括:
[0010]步骤1:构建DDPG跟驰行为策略模型的状态输入;模型的状态空间S以自车与前车的间距s_rel、自车的速度v0、前车的速度v
f
作为状态空间的输入:
[0011]S={s_rel,v0,v
f
}
[0012]步骤2:构建跟驰行为策略模型的复合奖励函数r:
[0013]r=w1·
r1+w2@r2[0014]r1为相似奖励函数,r2为多目标奖励函数,w1为相似奖励函数的权重,w2为多目标奖励函数的权重,w1+w2=1,w1>0,w2>0;
[0015]步骤3:构建奖励评估器T(R):
[0016]根据建立的多目标奖励函数r2的表达式,分别计算真实驾驶员跟驰行为的制动踏板或油门踏板开度的动作的平均奖励值R2与当前深度强化学习策略给出的动作的平均奖励R'2,当R'2≥R2时,减小w1的值,增大w2的值;
[0017]步骤4:构建DDPG框架,包括:构建DDPG的Actor网络μ(ω1)及其目标网络target Actor网络构建DDPG的Critic网络及其目标网络target Critic网络ω1、为神经网络参数;Actor网络μ(ω1)根据当前的状态,输出一个制动踏板或油门踏板开度动作;
[0018]步骤5:建立Replaybuffer经验回放缓存区;
[0019]将状态

动作

奖励

状态转移的四元组{s
t
,a
t
,r
2,t
,s
t+1
}存入Replaybuffer经验回放缓存区中,直至Replaybuffer经验回放缓存区收集N0个状态

动作

奖励

状态转移的四元组{s
t
,a
t
,r
2,t
,s
t+1
},其中下标t为时间步,s
t
代表t时刻的状态,a
t
代表t时刻做出的动作,r
2,t
代表t时刻多目标奖励函数给出的奖励,s
t+1
代表下一个时间t+1的状态;
[0020]第四步,训练模型,包括:
[0021]步骤1:从Replaybuffer经验回放缓存区中采样n个四元组{s
i
,a
i
,r
2,i
,s
i+1
}
i=1,....n
,下标i表示该四元组是第i个被采样的四元组;
[0022]步骤2:计算DDPG网络给出的离散制动踏板或油门踏板开度的动作概率分布q;
[0023]步骤3:计算所有采样的四元组的相似奖励函数r1;
[0024]步骤4:计算每个四元组的复合奖励函数r
i

[0025]步骤5:对每个元组,用目标网络target Critic网络计算预测价值;
[0026]步骤6:更新当前的Actor网络和当前的Critic网络;
[0027]步骤7:奖励评估器T(R)计算真实驾驶员跟驰行为的制动踏板或油门踏板开度的动作的平均奖励值R2,与当前深度强化学习策略给出的动作的平均奖励R
’2;
[0028]步骤8:更新目标网络;
[0029]重复上述步骤,直至训练收敛。
[0030]作为优选,第一步中采集数据时,将油门踏板开度记录为正值,将制动踏板开度记录为负值,将真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据存入真实驾驶员跟驰行为数据集中,将与前车的距离数据、自车的速度数据及前车的速度数据作为状态信息存入真实驾驶员跟驰行为数据集中。
[0031]作为优选,第二步中,记油门踏板开度的理论最大值为θ
ymax
,记制动踏板开度的理论最大值为

θ
zmax
,制动踏板或油门踏板开度θ的取值范围表示为:θ∈[

θ
zmax

ymax
],其中,正值的θ代表油门踏板开度的角度,油门踏板开度越大,正值的θ越大;负值的θ代表制动踏
板开度的角度,制动踏板开度越大,负值的θ越小;将制动踏板开度的取值范围平分为N
z
个区间,N
z
为一个大于零的正整数,将油门踏板本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进深度强化学习的智能汽车类人跟驰行为控制方法,其特征在于:包括以下步骤:第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据;第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p;第三步,构建跟驰行为策略模型,包括:步骤1:构建DDPG跟驰行为策略模型的状态输入;模型的状态空间S以自车与前车的间距s_rel、自车的速度v0、前车的速度v
f
作为状态空间的输入:S={s_rel,v0,v
f
}步骤2:构建跟驰行为策略模型的复合奖励函数r:r=w1·
r1+w2·
r2r1为相似奖励函数,r2为多目标奖励函数,w1为相似奖励函数的权重,w2为多目标奖励函数的权重,w1+w2=1,w1>0,w2>0;步骤3:构建奖励评估器T(R):根据建立的多目标奖励函数r2的表达式,分别计算真实驾驶员跟驰行为的制动踏板或油门踏板开度的动作的平均奖励值R2与当前深度强化学习策略给出的动作的平均奖励R'2,当R'2≥R2时,减小w1的值,增大w2的值;步骤4:构建DDPG框架,包括:构建DDPG的Actor网络μ(ω1)及其目标网络target Actor网络构建DDPG的Critic网络及其目标网络target Critic网络ω1、为神经网络参数;Actor网络μ(ω1)根据当前的状态,输出一个制动踏板或油门踏板开度动作;步骤5:建立Replaybuffer经验回放缓存区;将状态

动作

奖励

状态转移的四元组{s
t
,a
t
,r
2,t
,s
t+1
}存入Replaybuffer经验回放缓存区中,直至Replaybuffer经验回放缓存区收集N0个状态

动作

奖励

状态转移的四元组{s
t
,a
t
,r
2,t
,s
t+1
},其中下标t为时间步,s
t
代表t时刻的状态,a
t
代表t时刻做出的动作,r
2,t
代表t时刻多目标奖励函数给出的奖励,s
t+1
代表下一个时间t+1的状态;第四步,训练模型,包括:步骤1:从Replaybuffer经验回放缓存区中采样n个四元组{s
i
,a
i
,r
2,i
,s
i+1
}
i=1,....n
,下标i表示该四元组是第i个被采样的四元组;步骤2:计算DDPG网络给出的离散制动踏板或油门踏板开度的动作概率分布q;步骤3:计算所有采样的四元组的相似奖励函数r1;步骤4:计算每个四元组的复合奖励函数r
i
;步骤5:对每个元组,用目标网络target Critic网络计算预测价值;步骤6:更新当前的Actor网络和当前的Critic网络;步骤7:奖励评估器T(R)计算真实驾驶员跟驰行为的制动踏板或油门踏板开度的动作的平均奖励值R2,与当前深度强化学习策略给出的动作的平均奖励R
′2;
步骤8:更新目标网络;重复上述步骤,直至训练收敛。2.根据权利要求1所述的一种改进深度强化学习的智能汽车类人跟驰行为控制方法,其特征在于:第一步中采集数据时,将油门踏板开度记录为正值,将制动踏板开度记录为负值,将真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据存入真实驾驶员跟驰行为数据集中,将与前车的距离数据、自车的速度数据及前车的速度数据作为状态信息存入真实驾驶员跟驰行为数据集中。3.根据权利要求1所述的一种改进深度强化学习的智能汽车类人跟驰行为控制方法,其特征在于:第二步中,记油门踏板开度的理论最大值为θ
y max
,记制动踏板开度的理论最大值为

θ
z max
,制动踏板或油门踏板开度θ的取值范围表示为:θ∈[

θ
z max

y max
],其中,正值的θ代表油门踏板开度的角度,油门踏板开度越大,正值的θ越大;负值的θ代表制动踏板开度的角度,制动踏板开度越大,负值的θ越小;将制动踏板开度的取值范围平分为N
z
个区间,N
z
为一个大于零的正整数,将油门踏板开度的取值范围平均分为N
y
个区间,N
y
为大于1的正整数,则处于第i个转角区间内的制动踏板或油门踏板开度θ
i
的取值范围表示为:i为整数,1≤i≤(N
z
+N
y
);统计真实驾驶员跟驰行为数据集中收集的全部制动踏板或油门踏板开度的采样次数Y
θ
,统计每个转角开度区间内的制动踏板或油门踏板开度的次数1≤i≤(N
z
+N
y
),得出真实驾驶员做出的制动踏板开度或油门踏板开度在每个制动踏板开度或油门踏板开度区间内的概率分布间内的概率分布它代表人类驾驶员在跟驰行为中做出某一区间内的制动踏板开度或油门踏板开度动作的概率:用每个区间内制动踏板或油门踏板开度的平均值近似区间内的制动踏板或油门踏板开度θ
i
,得出真实驾驶员跟驰行为数据集的离散制动踏板或油门踏板开度的动作概率分布p,存入真实驾驶员跟驰行为数据集中;第i个区间的离散动作概率p
i
为:4.根据权利要求1所述的一种改进深度强化学习的智能汽车类人跟驰行为控制方法,
其特征在于:第三步的步骤2中,所述的相似奖励函数r1的表达式为:其中,K1为一个大于0的比例系数,D
KL
(p||q)是真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p与从DDPG的历史数据中抽样获得的离散制动踏板或油门踏板开度的动作概率分布q的KL散度,动作概率分布q在模型训练过程中获得;D
KL
(p||q)用于衡量DDPG离散制动踏板或油门踏板开度的动作概率分布与真实驾驶员跟驰行为的离散制动踏板或...

【专利技术属性】
技术研发人员:赵健李思远朱冰宋东鉴
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1