当前位置: 首页 > 专利查询>广州大学专利>正文

基于对抗模仿学习的无人驾驶车辆换道决策方法和系统技术方案

技术编号:25117445 阅读:26 留言:0更新日期:2020-08-05 02:42
本发明专利技术公开了基于对抗模仿学习的无人驾驶车辆换道决策方法和系统,首先基于将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;然后将采用采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;车辆在无人进行驾驶行驶过程中,以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。本发明专利技术通过对抗模仿学习从专业驾驶示教提供的范例中学习换道策略,无需人为设计任务奖励函数,可以直接建立从车辆状态到车辆换道决策的直接映射,有效提高了无人驾驶车辆在动态车流条件下换道决策的正确性、鲁棒性和自适应性。

【技术实现步骤摘要】
基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
本专利技术属于无人自主驾驶车辆
,特别涉及一种基于对抗模仿学习的无人驾驶车辆换道决策方法和系统。
技术介绍
无人驾驶的发展有助于提升道路交通智能化水平、推动交通运输行业的转型升级。无人驾驶车辆是硬件和软件的结合体,硬件包括各种类型的传感器、控制器,软件则是集环境感知、行为决策、运动规划与自主控制模块于一体的综合系统。换道决策是无人驾驶车辆决策技术的重要组成模块,是后续动作规划模块执行的依据。目前,现有技术包括公开的专利,主要采用的无人驾驶车辆换道决策方法包括:基于规则的决策、基于动态规划的决策、基于模糊控制的决策等传统方法。然而车辆行驶环境是一种复杂多变的高动态交通环境,很难建立精确的数学模型进行决策方法的设计,传统换道决策方法的鲁棒性和自适应性已无法完全满足无人驾驶换道决策的要求。近年来,人工智能在无人驾驶领域的应用得到飞速发展,采用人工智能的手段来解决无人驾驶车辆换道决策问题成为一种可行方案。端到端的有监督学习和深度强化学习是两种较为普遍的方法。端到端的有监督学习和深度本文档来自技高网...

【技术保护点】
1.一种基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,包括:/n步骤S1、将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;/n步骤S2、采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;其中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现;/n步骤S3、车辆在无人进行驾驶行驶过程中,以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。/n

【技术特征摘要】
1.一种基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,包括:
步骤S1、将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;
步骤S2、采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;其中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现;
步骤S3、车辆在无人进行驾驶行驶过程中,以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。


2.根据权利要求1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,步骤S1中,将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程,具体如下:
步骤S11、确定状态Ot空间:包括车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb];
其中:
l为车辆自车所在车道,v0为车辆自车行驶速度;
sf、vf分别对应为自车行车道前方最近车辆到自车的距离和到自车的相对速度;
sb、vb分别对应为自车车道后方最近车辆到自车的距离和到自车的相对速度;
slf、vlf分别对应为自车的左车道前方最近车辆到自车的距离和到自车的相对速度;
slb、vlb分别对应为自车的左车道后方最近车辆到自车的距离和到自车的相对速度;
srf、vrf分别对应为自车的右车道前方最近车辆到自车的距离和到自车的相对速度;
srb、vrb分别对应为自车的右车道后方最近车辆到自车的距离和到自车的相对速度;
步骤S12、确定动作At空间:包括车辆左转换道、车辆右转换道、车辆车道保持且车速保持、车辆车道保持且加速以及车辆车道保持且减速。


3.根据权利要求2所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,针对于车辆自车:
当检测不到其行车道前方的车辆时,将sf、vf分别对应置为固定值;
当检测不到其行车道后方的车辆时,将sb、vb分别对应置为固定值;
当检测不到其左车道前方的车辆时,将slf、vlf分别对应置为固定值;
当检测不到其左车道后方的车辆时,将slb、vlb分别对应置为固定值;
当检测不到其右车道前方的车辆时,将srf、vrf分别对应置为固定值;
当检测不到其右车道后方的车辆时,将srb、vrb分别对应置为固定值。


4.根据权利要求2所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,步骤S2中,采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练的具体过程如下:
步骤S21、对专业驾驶员的车辆驾驶行为进行数据采集,包括采集专业驾驶员驾驶的状态数据和动作数据;
步骤S22、将采集的车辆状态数据和动作数据对抽取出来,构成数据集合τ={τ1,τ2,τ3,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)},定义τ为对抗模仿学习的专家轨迹,τ1至τN分别表示第1至N个数据对,O1至ON分别表示采集的第1至N个状态数据,A1至AN分别表示采集的第1至N个动作数据;
其中N为训练数据集合中数据对的总数,对应为采样次数;
步骤S23、以数据集合τ为输入,采用对抗模仿学习方法训练,模仿专业驾驶员的驾驶行为,获得无人驾驶车辆换道决策模型。


5.根据权利要求4所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,步骤S23中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现,具体过程如下:
步骤S231、初始化:
设置最大训练轮次T、训练步长α和采样次数N;
对无人驾驶车辆代理策略πθ进行初始化,将无人驾驶车辆代理策略πθ的权重参数初始化为θ0;
初始化对抗网络判别器Dφ的权重参数,其中,φ0为对抗网络判别器Dφ的初始化权重参数;
获取无人驾驶车辆当前状态向量O和当前动作向量A;
步骤S232、对每一训练轮次t,0≤t≤T,执行步骤S233至步骤S239;
步骤S233、随机采样,生成N个均...

【专利技术属性】
技术研发人员:綦科
申请(专利权)人:广州大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1