换道决策网络的训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38725479 阅读:11 留言:0更新日期:2023-09-08 23:18
本公开提供了一种换道决策网络的训练方法、装置、计算机设备及存储介质,其中,该方法包括:获取前一训练阶段训练完成的初始决策网络,以及当前训练阶段的换道场景信息;其中,不同训练阶段的换道场景类型不同;确定所述初始决策网络中各网络参数分别对应的重要性信息;基于所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息,对所述初始决策网络进行训练,得到当前训练阶段的目标决策网络。络。络。

【技术实现步骤摘要】
换道决策网络的训练方法、装置、计算机设备及存储介质


[0001]本公开涉及换道决策网络的训练
,具体而言,涉及一种换道决策网络的训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着自动驾驶技术的快速发展,越来越多的自动驾驶车辆出现在人们的日常生活中。在进行自动驾驶的过程中,车辆的决策模块可以根据车辆在行驶过程中感知的环境信息,确定出自动驾驶的行驶轨迹,从而可以在合适的时间和位置发起换道。
[0003]相关技术中,往往是由训练好的神经网络根据输入的换道场景信息(即车辆周围的环境信息),输出包含合适的时间和位置发起换道的换道策略,但由于换道场景的数量较多,需要在训练过程中分为多个训练阶段对神经网络进行训练,而随着训练的逐步进行往往会使得神经网络逐渐遗忘之前训练阶段时掌握的相关决策能力,从而使得神经网络的网络精度有待提高。

技术实现思路

[0004]本公开实施例至少提供一种换道决策网络的训练方法、装置、计算机设备及存储介质。
[0005]第一方面,本公开实施例提供了一种换道决策网络的训练方法,包括:
[0006]获取前一训练阶段训练完成的初始决策网络,以及当前训练阶段的换道场景信息;其中,不同训练阶段的换道场景类型不同;
[0007]确定所述初始决策网络中各网络参数分别对应的重要性信息;
[0008]基于所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息,对所述初始决策网络进行训练,得到当前训练阶段的目标决策网络。
[0009]一种可能的实施方式中,所述确定所述初始决策网络中各网络参数分别对应的重要性信息,包括:
[0010]针对所述前一训练阶段训练完成的初始决策网络,提取所述初始决策网络对应的费歇耳信息矩阵;其中,所述费歇耳信息矩阵用于表征所述初始决策网络中各网络参数分别对应的重要性。
[0011]一种可能的实施方式中,所述基于所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息,对所述初始决策网络进行训练,得到当前训练阶段的决策网络,包括:
[0012]针对训练过程中的任一次网络参数调整,基于所述初始权重信息和所述各网络参数分别对应的重要性信息,确定该次网络参数调整过程中各网络参数分别对应的更新后的参数值;
[0013]基于各网络参数分别对应的更新后的参数值和所述当前训练阶段的换道场景信
息,确定用于训练所述当前训练阶段的决策网络的目标损失值,并基于所述目标损失值对所述初始决策网络进行训练,得到当前训练阶段的决策网络。
[0014]一种可能的实施方式中,所述基于所述初始权重信息和所述各网络参数分别对应的重要性信息,确定该次网络参数调整过程中各网络参数分别对应的更新后的参数值,包括:
[0015]基于各网络参数分别对应的重要性信息,以及待调整的所述当前训练阶段的网络参数的参数值与所述初始权重信息之间的差值,确定各网络参数分别对应的权重调整值;
[0016]基于各网络参数分别对应的权重调整值对所述初始权重信息进行调整,得到该次网络参数调整过程中各网络参数分别对应的更新后的参数值。
[0017]一种可能的实施方式中,所述基于各网络参数分别对应的更新后的参数值和所述当前训练阶段的换道场景信息,确定用于训练所述当前训练阶段的决策网络的目标损失值,包括:
[0018]基于各网络参数分别对应的更新后的参数值和所述当前训练阶段的换道场景信息,确定更新参数值后的决策网络针对所述当前训练阶段的换道场景信息输出的第一样本决策结果;
[0019]基于所述第一样本决策结果和所述当前训练阶段的换道场景信息对应的换道策略,确定用于训练所述当前训练阶段的决策网络的目标损失值。
[0020]一种可能的实施方式中,所述获取前一训练阶段训练完成的初始决策网络,以及当前训练阶段的换道场景信息,包括:
[0021]在检测到满足预设的换道场景训练条件的情况下,获取前一训练阶段训练完成的初始决策网络,以及当前训练阶段的换道场景信息,其中,所述换道场景训练条件包括检测到新的换道场景类型的数量达到预设数量。
[0022]一种可能的实施方式中,所述基于各网络参数分别对应的更新后的参数值和所述当前训练阶段的换道场景信息,确定用于训练所述当前训练阶段的决策网络的目标损失值,包括:
[0023]基于各网络参数分别对应的更新后的参数值、所述当前训练阶段的换道场景信息以及所述前一训练阶段的换道场景信息,确定更新参数值后的决策网络针对所述当前训练阶段和所述前一训练阶段的换道场景信息输出的第二样本决策结果;
[0024]基于所述第二样本决策结果、所述当前训练阶段的换道场景信息对应的换道策略以及所述前一训练阶段的换道场景信息对应的换道策略,确定用于训练所述当前训练阶段的决策网络的目标损失值。
[0025]第二方面,本公开实施例还提供一种车辆控制方法,包括:
[0026]获取待检测场景信息;
[0027]基于预先训练的目标决策网络和所述待检测场景信息,确定目标换道策略,并按照所述目标换道策略进行车辆控制;
[0028]其中,所述目标决策网络是基于多轮训练阶段训练完成的,不同训练阶段的换道场景类型不同,任一训练阶段的初始决策网络是在前一轮训练完成的初始决策网络的基础上,结合前一轮训练完成的初始决策网络中各网络参数分别对应的重要性信息训练得到的,第一训练阶段的初始决策网络是基于第一训练阶段的样本场景信息训练得到的。
[0029]第三方面,本公开实施例还提供一种换道决策网络的训练装置,包括:
[0030]获取模块,用于获取前一训练阶段训练完成的初始决策网络,以及当前训练阶段的换道场景信息;其中,不同训练阶段的换道场景类型不同;
[0031]确定模块,用于确定所述初始决策网络中各网络参数分别对应的重要性信息;
[0032]训练模块,用于基于所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息,对所述初始决策网络进行训练,得到当前训练阶段的目标决策网络。
[0033]第四方面,本公开可选实现方式还提供一种计算机程序产品,包括计算机程序,当所述计算机程序被执行时实现如第一方面和/或第二方面所述的方法。
[0034]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
[0035]本公开实施例提供的换道决策网络的训练方法、装置、计算机设备及存储介质,在当前训练阶段的训练过程中,可以确定出前一训练阶段训练得到的初始决策网络中各网络参数分别对应的重要性信息,从而可以根据所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息,对所述初始决策网络进行训练,得到当前训练阶段的目标决策网络。这样,由于在训练当前阶段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种换道决策网络的训练方法,其特征在于,包括:获取前一训练阶段训练完成的初始决策网络,以及当前训练阶段的换道场景信息;其中,不同训练阶段的换道场景类型不同;确定所述初始决策网络中各网络参数分别对应的重要性信息;基于所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息,对所述初始决策网络进行训练,得到当前训练阶段的目标决策网络。2.根据权利要求1所述的方法,其特征在于,所述确定所述初始决策网络中各网络参数分别对应的重要性信息,包括:针对所述前一训练阶段训练完成的初始决策网络,提取所述初始决策网络对应的费歇耳信息矩阵;其中,所述费歇耳信息矩阵用于表征所述初始决策网络中各网络参数分别对应的重要性。3.根据权利要求1所述的方法,其特征在于,所述基于所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息,对所述初始决策网络进行训练,得到当前训练阶段的决策网络,包括:针对训练过程中的任一次网络参数调整,基于所述初始权重信息和所述各网络参数分别对应的重要性信息,确定该次网络参数调整过程中各网络参数分别对应的更新后的参数值;基于各网络参数分别对应的更新后的参数值和所述当前训练阶段的换道场景信息,确定用于训练所述当前训练阶段的决策网络的目标损失值,并基于所述目标损失值对所述初始决策网络进行训练,得到当前训练阶段的决策网络。4.根据权利要求3所述的方法,其特征在于,所述基于所述初始权重信息和所述各网络参数分别对应的重要性信息,确定该次网络参数调整过程中各网络参数分别对应的更新后的参数值,包括:基于各网络参数分别对应的重要性信息,以及待调整的所述当前训练阶段的网络参数的参数值与所述初始权重信息之间的差值,确定各网络参数分别对应的权重调整值;基于各网络参数分别对应的权重调整值对所述初始权重信息进行调整,得到该次网络参数调整过程中各网络参数分别对应的更新后的参数值。5.根据权利要求3或4所述的方法,其特征在于,所述基于各网络参数分别对应的更新后的参数值和所述当前训练阶段的换道场景信息,确定用于训练所述当前训练阶段的决策网络的目标损失值,包括:基于各网络参数分别对应的更新后的参数值和所述当前训练阶段的换道场景信息,确定更新参数值后的决策网络针对所述当前训练阶段的换道场景信息输出的第一样本决策结果;基于所述第一样本决策结果和所述当前训练阶段的换道场景信息对应的换道策略,确定用于训练所述当前训练阶段的决策网络的目标损失值。6.根据权利要求1所述的方法,其特征在于,所述获取前一训练阶段训练完成的初始决策网络,以及当前...

【专利技术属性】
技术研发人员:熊方舟请求不公布姓名请求不公布姓名
申请(专利权)人:北京集度科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1