一种面向自动驾驶的大视觉语言模型增量学习方法及装置制造方法及图纸

技术编号：41319933 阅读：5 留言：0更新日期：2024-05-13 14:59

本申请提供一种面向自动驾驶的大视觉语言模型增量学习方法及装置，增量学习方法包括：对第一训练样本集进行扩充，得到第二训练样本集；所述第二训练样本集包括多个标注道路场景目标的图像样本；将多个微调子网络分别插入第一大视觉语言模型的指定位置，生成第二大视觉语言模型；利用所述第二大视觉语言模型对第二训练样本集的图像样本进行处理，得到目标预测结果；利用所述目标预测结果和目标标注结果，计算损失值；保持所述第一大视觉语言模型的参数不变，利用所述损失值更新所述微调子网络的参数。本申请的方法在保证原模型参数不变的前提下，节省训练和储存参数成本，用少量样本实现了大模型的高效的微调。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自动驾驶，尤其是涉及一种面向自动驾驶的大视觉语言模型增量学习方法及装置。

技术介绍

1、在自动驾驶中，对感知系统的实时性和高效性要求较高。因此，研究人员迫切需要在有限的时间和计算资源下，对大模型进行高效的微调，以适应新的驾驶场景和交通情况。

2、在目前的大模型领域中，广泛应用“预训练+微调(fine-tuning)”的学习范式。然而传统的预训练+微调范式存在两个普遍缺陷：一是模型参数越来越大，全量微调计算负担过大；二是灾难性遗忘，在新任务上训练时，在旧任务上的表现会显著下降。

3、现有的部分更新参数高效微调方法有adapter和prefix-tuning等。adapter方法使用的是串行结构，插入的adapter模块很容易成为一个计算瓶颈，尤其是在并行度较低时(batch较小，长度较短)对于模型的计算效率影响较大。prefix-tuning方法使用的是并行结构但引入的前缀token会占用模型可用的输入长度，导致prefix-tuning的扩展性较差，增加参数量势必增加前缀token的数量，这样对于模型可用输入长度的挤占会更加严重。

技术实现思路

1、有鉴于此，本申请提供了一种面向自动驾驶的大视觉语言模型增量学习方法及装置，以解决上述技术问题。

2、第一方面，本申请实施例提供一种面向自动驾驶的大视觉语言模型增量学习方法，包括：

3、对第一训练样本集进行扩充，得到第二训练样本集；所述第二训练样本集包括多个标注道路场景目标的图像样本；

4、将多个微调子网络分别插入第一大视觉语言模型的指定位置，生成第二大视觉语言模型；

5、利用所述第二大视觉语言模型对第二训练样本集的图像样本进行处理，得到目标预测结果；

6、利用所述目标预测结果和目标标注结果，计算损失值；

7、保持所述第一大视觉语言模型的参数不变，利用所述损失值更新所述微调子网络的参数。

8、进一步地，对第一训练样本集进行扩充，得到第二训练样本集，包括：

9、从第一训练样本集中获取包含预设类别的第一图像样本；

10、利用生成模型对所述第一图像样本进行处理，得到多个包含预设类别的第二图像样本，所述第二图像样本与所述第一图像样本不同；

11、对多个包含预设类别的第二图像样本中的预设类别目标进行标注；

12、将所有标注后的第二图像样本组成第二训练样本集。

13、进一步地，包括：所述微调子网络包括依次连接的第一参数化超复数乘法层、归一化层、第二参数化超复数乘法层和缩放单元；所述归一化层采用softmax函数；所述缩放单元用于采用预设的参数对第二参数化超复数乘法层的输出结果进行缩放处理。

14、进一步地，所述第一大视觉语言模型包括多个第一transformer单元，所述第一transformer单元包括编码器和第一解码器，所述第一解码器包括：多头注意力层、第一加法及归一化层、前馈层和第二加法及归一化层；

15、将多个微调子网络分别插入第一大视觉语言模型的指定位置，生成第二大视觉语言模型，包括：

16、为第一大视觉语言模型的所述transformer单元的第一解码器的多头注意力层增加一个并行的微调子网络；

17、为第一大视觉语言模型的所述transformer单元的第一解码器的前馈层增加一个并行的微调子网络。

18、进一步地，所述第二大视觉语言模型包括多个第二transformer单元，所述第二transformer单元包括编码器和第二解码器，所述第二解码器包括：多头注意力层、第一微调子网络、第一加法及归一化层、前馈层、第二微调子网络和第二加法及归一化层；所述第二transformer单元的输入数据分别进入多头注意力层、第一微调子网络和第一加法及归一化层；所述第一微调子网络的输出结果进入第一加法及归一化层；所述第一加法及归一化层的输出结果进入前馈层、第二微调子网络和第二加法及归一化层；所述第二微调子网络的输出结果进入第二加法及归一化层。

19、进一步地，所述方法还包括：

20、获取用户输入的第一文本信息；

21、从所述第一文本信息中心确定待检测图像的目标类别；

22、根据所述目标类别生成问题，所述问题包括目标类别的具体描述；

23、获取用户输入的针对所述问题的第二文本信息；

24、将所述第二文本信息作为大视觉语言模型的输入。

25、第二方面，本申请实施例提供一种面向自动驾驶的大视觉语言模型增量学习装置，包括：

26、第一处理单元，用于对第一训练样本集进行扩充，得到第二训练样本集；所述第二训练样本集包括多个标注道路场景目标的图像样本；

27、生成单元，用于将多个微调子网络分别插入第一大视觉语言模型的指定位置，生成第二大视觉语言模型；

28、第二处理单元，用于利用所述第二大视觉语言模型对第二训练样本集的图像样本进行处理，得到目标预测结果；

29、计算单元，用于利用所述目标预测结果和目标标注结果，计算损失值；

30、微调单元，用于保持所述第一大视觉语言模型的参数不变，利用所述损失值更新所述微调子网络的参数。

31、第三方面，本申请实施例提供一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的方法。

32、第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现本申请实施例的方法。

33、本申请的方法在保证原模型参数不变的前提下，节省训练和储存参数成本，用少量样本实现了大模型的高效的微调。

本文档来自技高网...

【技术保护点】

1.一种面向自动驾驶的大视觉语言模型增量学习方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对第一训练样本集进行扩充，得到第二训练样本集，包括：

3.根据权利要求1所述的方法，其特征在于，包括：所述微调子网络包括依次连接的第一参数化超复数乘法层、归一化层、第二参数化超复数乘法层和缩放单元；所述归一化层采用softmax函数；所述缩放单元用于采用预设的参数对第二参数化超复数乘法层的输出结果进行缩放处理。

4.根据权利要求3所述的方法，其特征在于，所述第一大视觉语言模型包括多个第一Transformer单元，所述第一Transformer单元包括编码器和第一解码器，所述第一解码器包括：多头注意力层、第一加法及归一化层、前馈层和第二加法及归一化层；

5.根据权利要求4所述的方法，其特征在于，所述第二大视觉语言模型包括多个第二Transformer单元，所述第二Transformer单元包括编码器和第二解码器，所述第二解码器包括：多头注意力层、第一微调子网络、第一加法及归一化层、前馈层、第二微调子网络和第二加法及归一化层

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种面向自动驾驶的大视觉语言模型增量学习装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现权利要求1-6任一项所述的方法。

...

【技术特征摘要】

1.一种面向自动驾驶的大视觉语言模型增量学习方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对第一训练样本集进行扩充，得到第二训练样本集，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一大视觉语言模型包括多个第一transformer单元，所述第一transformer单元包括编码器和第一解码器，所述第一解码器包括：多头注意力层、第一加法及归一化层、前馈层和第二加法及归一化层；

5.根据权利要求4所述的方法，其特征在于，所述第二大视觉语言模型包括多个第二transformer单元，所述第二transformer单元包括编码器和第二解码器，所述第二解...

【专利技术属性】
技术研发人员：李志伟，李伟婷，王景微，刘景硕，沈甜雨，王力，王坤峰，谭启凡，张新钰，
申请(专利权)人：北京化工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人