换道决策网络的训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：38725479 阅读：11 留言：0更新日期：2023-09-08 23:18

本公开提供了一种换道决策网络的训练方法、装置、计算机设备及存储介质，其中，该方法包括：获取前一训练阶段训练完成的初始决策网络，以及当前训练阶段的换道场景信息；其中，不同训练阶段的换道场景类型不同；确定所述初始决策网络中各网络参数分别对应的重要性信息；基于所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息，对所述初始决策网络进行训练，得到当前训练阶段的目标决策网络。络。络。

全部详细技术资料下载

【技术实现步骤摘要】
换道决策网络的训练方法、装置、计算机设备及存储介质

[0001]本公开涉及换道决策网络的训练
，具体而言，涉及一种换道决策网络的训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着自动驾驶技术的快速发展，越来越多的自动驾驶车辆出现在人们的日常生活中。在进行自动驾驶的过程中，车辆的决策模块可以根据车辆在行驶过程中感知的环境信息，确定出自动驾驶的行驶轨迹，从而可以在合适的时间和位置发起换道。
[0003]相关技术中，往往是由训练好的神经网络根据输入的换道场景信息(即车辆周围的环境信息)，输出包含合适的时间和位置发起换道的换道策略，但由于换道场景的数量较多，需要在训练过程中分为多个训练阶段对神经网络进行训练，而随着训练的逐步进行往往会使得神经网络逐渐遗忘之前训练阶段时掌握的相关决策能力，从而使得神经网络的网络精度有待提高。

技术实现思路

[0004]本公开实施例至少提供一种换道决策网络的训练方法、装置、计算机设备及存储介质。
[0005]第一方面，本公开实施例提供了一种换道决策网络的训练方法，包括：
[0006]获取前一训练阶段训练完成的初始决策网络，以及当前训练阶段的换道场景信息；其中，不同训练阶段的换道场景类型不同；
[0007]确定所述初始决策网络中各网络参数分别对应的重要性信息；
[0008]基于所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息，对所述初始决策网络进行训练，得到当前训练阶...

【技术保护点】

【技术特征摘要】
1.一种换道决策网络的训练方法，其特征在于，包括：获取前一训练阶段训练完成的初始决策网络，以及当前训练阶段的换道场景信息；其中，不同训练阶段的换道场景类型不同；确定所述初始决策网络中各网络参数分别对应的重要性信息；基于所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息，对所述初始决策网络进行训练，得到当前训练阶段的目标决策网络。2.根据权利要求1所述的方法，其特征在于，所述确定所述初始决策网络中各网络参数分别对应的重要性信息，包括：针对所述前一训练阶段训练完成的初始决策网络，提取所述初始决策网络对应的费歇耳信息矩阵；其中，所述费歇耳信息矩阵用于表征所述初始决策网络中各网络参数分别对应的重要性。3.根据权利要求1所述的方法，其特征在于，所述基于所述初始决策网络中的初始权重信息、所述当前训练阶段的换道场景信息以及所述各网络参数分别对应的重要性信息，对所述初始决策网络进行训练，得到当前训练阶段的决策网络，包括：针对训练过程中的任一次网络参数调整，基于所述初始权重信息和所述各网络参数分别对应的重要性信息，确定该次网络参数调整过程中各网络参数分别对应的更新后的参数值；基于各网络参数分别对应的更新后的参数值和所述当前训练阶段的换道场景信息，确定用于训练所述当前训练阶段的决策网络的目标损失值，并基于所述目标损失值对所述初始决策网络进行训练，得到当前训练阶段的决策网络。4.根据权利要求3所述的方法，其特征在于，所述基于所述初始权重信息和所述各网络参数分别对应的重要性信息，确定该次网络参数调整过程中各网络参数分别对应的更新后的参数值，包括：基于各网络参数分别对应的重要性信息，以及待调整的所述当前训练阶段的网络参数的参数值与所述初始权重信息之间的差值，确定各网络参数分别对应的权重调整值；基于各网络参数分别对应的权重调整值对所述初始权重信息进行调整，得到该次网络参数调整过程中各网络参数分别对应的更新后的参数值。5.根据权利要求3或4所述的方法，其特征在于，所述基于各网络参数分别对应的更新后的参数值和所述当前训练阶段的换道场景信息，确定用于训练所述当前训练阶段的决策网络的目标损失值，包括：基于各网络参数分别对应的更新后的参数值和所述当前训练阶段的换道场景信息，确定更新参数值后的决策网络针对所述当前训练阶段的换道场景信息输出的第一样本决策结果；基于所述第一样本决策结果和所述当前训练阶段的换道场景信息对应的换道策略，确定用于训练所述当前训练阶段的决策网络的目标损失值。6.根据权利要求1所述的方法，其特征在于，所述获取前一训练阶段训练完成的初始决策网络，以及当前...

【专利技术属性】
技术研发人员：熊方舟，请求不公布姓名，请求不公布姓名，
申请(专利权)人：北京集度科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人