自动驾驶行为决策及模型训练方法技术

技术编号:39753345 阅读:13 留言:0更新日期:2023-12-17 23:52
本发明专利技术实施例提供了一种自动驾驶行为决策模型的训练方法和系统以及自动驾驶行为决策方法和系统,应用于车辆端,所述训练方法包括:获取车辆在目标场景下的环境感知数据;根据环境感知数据构建离散的场景空间集合;利用场景空间集合对决策模型进行预训练输出决策结果;根据驾驶员的行为操作数据和

【技术实现步骤摘要】
自动驾驶行为决策及模型训练方法、系统和设备及介质


[0001]本专利技术涉及车辆领域

数据处理
,特别是涉及一种自动驾驶行为决策模型的训练方法

一种自动驾驶行为决策方法

一种自动驾驶行为决策模型的训练系统

一种自动驾驶行为决策系统以及一种电子设备和一种计算机可读存储介质


技术介绍

[0002]当前无人驾驶的决策系统日益广泛采用深度神经网络来训练端到端的行为决策模型,以处理海量的驾驶数据

随着无人驾驶技术的不断进步,深度神经网络在行为决策方面取得了一定的成果,能够在某些场景下完成自动驾驶任务

然而,由于无人驾驶环境的复杂性,现有的决策模型往往还存在一些问题

[0003]1.
数据量和标注准确性:深度神经网络需要大量的高质量训练数据来获得良好的性能,但获取大规模的真实驾驶数据是昂贵且耗时的过程

同时,数据的标注准确性也是一个挑战,因为对驾驶行为的正确标注需要专业的驾驶员或专家进行

[0004]2.
对复杂环境的泛化能力:目前的深度神经网络在处理复杂交通场景

极端天气条件和不寻常事件时的泛化能力还有待提高

由于现实中遇到的驾驶场景非常多样化,模型需要能够在各种情况下做出可靠的决策

[0005]总体而言,虽然深度神经网络在无人驾驶决策方面取得了一些进展,但仍然存在许多技术问题需要解决


技术实现思路

[0006]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种自动驾驶行为决策模型的训练方法

一种自动驾驶行为决策方法和相应的一种自动驾驶行为决策模型的训练系统

一种自动驾驶行为决策系统

[0007]为了解决上述问题,本专利技术实施例公开了一种自动驾驶行为决策模型的训练方法,应用于车辆端,所述方法包括:获取车辆在目标场景下的环境感知数据;根据所述环境感知数据构建离散的场景空间集合;利用所述场景空间集合对决策模型进行预训练输出决策结果;根据驾驶员的行为操作数据和
/
或所述车辆的行驶环境数据,以及所述决策结果计算所述决策模型的累计奖励值;根据所述场景空间集合和所述累计奖励值对所述决策模型的参数进行迭代更新

[0008]可选地,所述根据所述环境感知数据构建离散的场景空间集合,包括:将所述环境感知数据中的连续变量转换为独热编码;将所述独热编码组合为所述场景空间集合

[0009]可选地,所述利用所述场景空间集合对决策模型进行预训练输出决策结果,包括:将所述场景空间集合输入所述决策模型,输出多个决策行为以及各所述决策行为的概率;将概率最大的决策行为作为所述决策结果

[0010]可选地,所述根据驾驶员的行为操作数据和
/
或所述车辆的行驶环境数据,以及所述决策结果计算所述决策模型的累计奖励值,包括:根据所述行为操作数据评估所述决策
结果的认可程度,和
/
或根据所述行驶环境数据确定所述决策结果的评价结果;根据所述认可程度和
/
或所述评价结果计算所述累计奖励值

[0011]可选地,所述根据所述行为操作数据评估所述决策结果的认可程度,包括:监测到所述驾驶员的面容表情

姿态动作和干预动作中的至少一项;对所述面容表情和
/
或所述姿态动作进行分类得到所述认可程度,和
/
或根据所述干预动作和所述决策结果确定所述认可程度;其中,所述认可程度为认可

不认可和中立

[0012]可选地,所述根据所述干预动作和所述决策结果确定所述认可程度,包括:将所述干预动作与所述决策结果进行比较;在所述干预动作与所述决策结果相同或关联的情况下,确定所述认可程度为认可;在所述干预动作与所述决策结果相斥的情况下,确定所述认可程度为不认可;在所述干预动作与所述决策结果不相关的情况下,确定所述认可程度为中立

[0013]可选地,所述根据所述行驶环境数据确定所述决策结果的评价结果,包括:根据所述车辆在执行完所述决策结果之后的行驶环境数据和至少一项评价参数确定所述评价结果;其中,所述评价参数包含:动力学约束

运动学约束

交通法规

碰撞风险

油耗

[0014]可选地,所述根据所述认可程度和
/
或所述评价结果计算所述累计奖励值,包括:分别统计所述认可程度为认可和不认可的数量;按照所述认可程度为认可的数量,增加正的单位值的奖励值,按照所述认可程度为不认可的数量,增加负的单位值的奖励值,若所述认可程度为中立的数量,则不增加奖励值;和
/
或,在所述评价结果为所述行驶环境数据不符合所述动力学约束或所述运动学约束的情况下,增加负的单位值的奖励值;在所述评价结果为所述行驶环境数据符合所述动力学约束或所述运动学约束的情况下,不增加奖励值;和
/
或,在所述评价结果为所述行驶环境数据违反交通法规的情况下,增加负的单位值的奖励值;在所述评价结果为所述行驶环境数据不违反交通法规的情况下,不增加奖励值;和
/
或,在所述评价结果为所述行驶环境数据增加的碰撞风险大于或等于预设第一风险阈值的情况下,增加负的单位值的奖励值;在所述评价结果为所述行驶环境数据减少的碰撞风险大于或等于预设第二风险阈值的情况下,增加正的单位值的奖励值;在所述评价结果为所述行驶环境数据增加的碰撞风险小于所述第一风险阈值,或,所述评价结果为所述行驶环境数据减少的碰撞风险小于所述第二风险阈值的情况下,不增加奖励值;和
/
或,在所述评价结果为所述行驶环境数据增加的油耗大于或等于预设第一油耗阈值的情况下,增加负的单位值的奖励值;在所述评价结果为所述行驶环境数据减少的油耗大于或等于预设第二油耗阈值的情况下,增加正的单位值的奖励值;在所述评价结果为所述行驶环境数据增加的油耗小于所述第一油耗阈值,或,所述评价结果为所述行驶环境数据减少的油耗小于所述第二油耗阈值的情况下,不增加奖励值;将增加的正的单位值的奖励值与增加的负的单位值的奖励值相加得到所述累计奖励值

[0015]可选地,所述根据所述场景空间集合和所述累计奖励值对所述决策模型的参数进行迭代更新,包括:将所述场景空间集合和所述累计奖励值上传至云端在线学习库,以使所述云端在线学习库采用强化学习的方法,基于最大化累计奖励值的原则对所述决策模型的参数进行迭代更新

[0016]可选地,所述方法还包括:在所述云端在线学习库对所述决策模型的参数进行迭代更新后的变化值大于或等于预设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种自动驾驶行为决策模型的训练方法,其特征在于,应用于车辆端,所述方法包括:获取车辆在目标场景下的环境感知数据;根据所述环境感知数据构建离散的场景空间集合;利用所述场景空间集合对决策模型进行预训练输出决策结果;根据驾驶员的行为操作数据和
/
或所述车辆的行驶环境数据,以及所述决策结果计算所述决策模型的累计奖励值;根据所述场景空间集合和所述累计奖励值对所述决策模型的参数进行迭代更新
。2.
根据权利要求1所述的方法,其特征在于,所述根据所述环境感知数据构建离散的场景空间集合,包括:将所述环境感知数据中的连续变量转换为独热编码;将所述独热编码组合为所述场景空间集合
。3.
根据权利要求1所述的方法,其特征在于,所述利用所述场景空间集合对决策模型进行预训练输出决策结果,包括:将所述场景空间集合输入所述决策模型,输出多个决策行为以及各所述决策行为的概率;将概率最大的决策行为作为所述决策结果
。4.
根据权利要求1所述的方法,其特征在于,所述根据驾驶员的行为操作数据和
/
或所述车辆的行驶环境数据,以及所述决策结果计算所述决策模型的累计奖励值,包括:根据所述行为操作数据评估所述决策结果的认可程度,和
/
或根据所述行驶环境数据确定所述决策结果的评价结果;根据所述认可程度和
/
或所述评价结果计算所述累计奖励值
。5.
根据权利要求4所述的方法,其特征在于,所述根据所述行为操作数据评估所述决策结果的认可程度,包括:监测到所述驾驶员的面容表情

姿态动作和干预动作中的至少一项;对所述面容表情和
/
或所述姿态动作进行分类得到所述认可程度,和
/
或根据所述干预动作和所述决策结果确定所述认可程度;其中,所述认可程度为认可

不认可和中立
。6.
根据权利要求5所述的方法,其特征在于,所述根据所述干预动作和所述决策结果确定所述认可程度,包括:将所述干预动作与所述决策结果进行比较;在所述干预动作与所述决策结果相同或关联的情况下,确定所述认可程度为认可;在所述干预动作与所述决策结果相斥的情况下,确定所述认可程度为不认可;在所述干预动作与所述决策结果不相关的情况下,确定所述认可程度为中立
。7.
根据权利要求5所述的方法,其特征在于,所述根据所述行驶环境数据确定所述决策结果的评价结果,包括:根据所述车辆在执行完所述决策结果之后的行驶环境数据和至少一项评价参数确定所述评价结果;其中,所述评价参数包含:动力学约束

运动学约束

交通法规

碰撞风险

油耗

8.
根据权利要求7所述的方法,其特征在于,所述根据所述认可程度和
/
或所述评价结果计算所述累计奖励值,包括:分别统计所述认可程度为认可和不认可的数量;按照所述认可程度为认可的数量,增加正的单位值的奖励值,按照所述认可程度为不认可的数量,增加负的单位值的奖励值,若所述认可程度为中立的数量,则不增加奖励值;和
/
或,在所述评价结果为所述行驶环境数据不符合所述动力学约束或所述运动学约束的情况下,增加负的单位值的奖励值;在所述评价结果为所述行驶环境数据符合所述动力学约束或所述运动学约束的情况下,不增加奖励值;和
/
或,在所述评价结果为所述行驶环境数据违反交通法规的情况下,增加负的单位值的奖励值;在所述评价结果为所述行驶环境数据不违反交通法规的情况下,不增加奖励值;和
/
或,在...

【专利技术属性】
技术研发人员:管杰成昊田广丰郭鑫徐闯
申请(专利权)人:苏州畅行智驾汽车科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1