一种面向智能驾驶场景的图像文本特征融合域适应目标检测方法技术

技术编号：44963176 阅读：20 留言：0更新日期：2025-04-12 01:33

本发明专利技术公开了一种面向智能驾驶场景的图像文本特征融合域适应目标检测方法，该方法设计了一种可以学习域无关特征的深度神经网络，其中包含用于使得特征具备域无关性的图像文本特征融合模块和用于将目标域的特征风格转化为源域的特征风格的特征级风格迁移模块；该方法首先预训练模型，设计文本提示短语并提取语义特征，然后利用添加了图像文本特征融合模块的教师模型生成伪标签，再训练额外添加了特征级风格迁移模块的学生模型，最后通过指数移动平均的方法更新教师模型作为最终结果。本发明专利技术提出的方法能够有效提升自动驾驶目标检测模型在目标域数据上的适应能力，同时显著降低数据集的标注成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉和模式识别领域，具体涉及一种面向智能驾驶场景的图像文本特征融合域适应目标检测方法。

技术介绍

1、目标检测作为最基础的计算机视觉技术之一，其目的是让计算机能够在图像中定位特定的目标，同时准确识别并区分不同目标的类别。近年来，深度学习的快速发展极大地推动了目标检测技术的进步。得益于深度卷积神经网络强大的特征提取能力，诞生了许多性能优秀的目标检测模型。目前，由于车载摄像头具有捕捉的信息更为丰富和成本较低等优势，基于视觉的目标检测技术在自动驾驶中扮演着至关重要的角色。

2、有监督学习和同域的目标检测技术如今已经非常完善，并且在现有的数据集上取得了良好的检测效果。然而，无监督的跨域目标检测技术仍然面临着很大的挑战。现有的目标检测方法通常假设训练数据和测试数据均来自相同的域。但是在实际的自动驾驶场景中，因天气、地域环境和设备等因素的影响，测试数据中的行人、车辆和交通标志等目标往往在外观上与训练数据有很大的不同，这导致了在一个数据集(源域数据集)上训练且拥有良好性能的模型，往往不能在另一个数据集(目标域数据集)上表现良好。

3、解决上述问题最直接的方法是标注所有的目标域数据集并用它们再次训练目标检测模型，但数据集的标注过程将会耗费非常昂贵的人力和时间成本，当面对实际的大规模数据集时，这甚至是不可能完成的。因此，如何基于无标注的目标域数据集进行模型的无监督训练具有十分重要的研究价值。

技术实现思路

1、本专利技术的目的在于提供一种面向智能驾驶场景的

2、实现本专利技术目的的技术解决方案为：一种面向智能驾驶场景的图像文本特征融合域适应目标检测方法，包括如下步骤：

3、步骤(1)：将在带标注的源域数据集上完成预训练的模型复制成完全相同的两份，一份作为教师模型，另一份作为学生模型；

4、步骤(2)：根据需要检测的感兴趣目标和数据集的内容设计文本提示短语，并用文本编码器提取其语义特征；

5、步骤(3)：在步骤(1)中获得的教师模型和学生模型中，在骨干网络的浅层添加图像文本特征融合模块，并在学生模型的骨干网络的深层再添加特征级风格迁移模块和域鉴别器；

6、步骤(4)：将步骤(2)中获得的文本语义特征和经过简单增强的目标域数据输入教师模型，得到的检测结果作为目标域数据的伪标签；

7、步骤(5)：将步骤(2)中获得的文本语义特征和经过复杂增强的源域和目标域数据输入学生模型，在源域真实标注和步骤(4)中获得的目标域伪标签的监督下进行模型训练；

8、步骤(6)：在学生模型完成一轮次的训练后，基于学生模型的参数，使用指数移动平均的方法更新教师模型的参数；

9、步骤(7)：重复上述步骤(3)-(6)直至最大训练轮次，最终获得的教师模型作为结果模型。

10、进一步的，所述步骤(2)中设计的文本提示短语，包含所有需要检测的感兴趣目标、其它可能在数据集中出现的有关目标和数据集场景的描述，描述需要准确表明目标的类别名称和数据集的场景名称。

11、进一步的，所述步骤(3)具体为：

12、步骤(3-1)：在教师模型和学生模型的骨干网络的浅层添加图像文本特征融合模块，从而使得特征具备域无关性，图像文本特征融合的公式为：

13、

14、上述公式中的ψs和ψt分别表示融合后的源域和目标域特征，xs和xt分别表示源域和目标域的图像数据样本，t为文本提示短语，wq、wk和wv为投影矩阵，为图像特征提取器，为文本编码器，dk为模块中图像特征和文本语义特征的统一维度；

15、步骤(3-2)：在学生模型的骨干网络的深层添加特征级风格迁移模块，从而将目标域的特征风格转化为源域的特征风格，并使用域鉴别器进行对抗性学习来促进骨干网络学习到域无关的特征，特征级风格迁移的公式为：

16、

17、上述公式中，f(·)为学生模型的骨干网络的浅层部分，用于提取图像的浅层特征，μ(·)和σ(·)分别为特征的通道均值和标准差，在每个特征的每个通道的空间维度上独立计算，具体表示为μnc(·)和σnc(·)，计算公式为：

18、

19、上述公式中的x表示图像特征，x∈rn×c×h×w，n为当前批次的特征数量，c为特征通道数，h为特征高度，w为特征宽度，xnchw为图像特征中具体的某一位置上的值，ε为一个很小的数，用于避免除以零的情况。

20、进一步的，所述步骤(3)中以vgg16作为骨干网络，共包含vgg0、vgg1、vgg2、vgg3和vgg4五个层次，每个层次均包含3×3的卷积层、relu激活函数和最大池化层。在vgg1层后添加图像文本特征融合模块，在vgg4层添加特征级风格迁移模块。

21、进一步的，所述步骤(4)中的简单增强包含图像尺寸变化和随机翻转。

22、进一步的，所述步骤(5)中的复杂增强包含图像亮度变化、对比度变化、饱和度变化、灰度变化、高斯模糊处理和随机裁剪。

23、进一步的，所述步骤(6)中使用指数移动平均的方法更新教师模型的参数，从而使得教师模型逐步适应目标域的数据，指数移动平均的公式为：

24、θt←αθt+(1-α)θs

25、上述公式中的θs和θt分别表示学生模型和教师模型的网络参数，α∈[0,1)为动量系数。

26、一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的面向智能驾驶场景的图像文本特征融合域适应目标检测方法。

27、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的面向智能驾驶场景的图像文本特征融合域适应目标检测方法。

28、一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的面向智能驾驶场景的图像文本特征融合域适应目标检测方法。

29、本专利技术与现有技术相比，其显著优点在于：

30、(1)使用文本提示短语的语义特征，通过融合图像和文本两种不同但相关的模态，使得特征具备更好的域无关性，减小了源域数据的特征和目标域数据的特征之间的差异，从而提升目标检测模型在目标域数据上的适应能力。

31、(2)不同数据集的样本在光照、色彩、地域环境、拍摄角度和分辨率等方面存在显著差异，通过在骨干网络中引入特征级风格迁移模块和域鉴别器，可以有效减小这些风格差异带来的影响，从而进一步提升目标检测模型在目标域数据上的适应能力。

本文档来自技高网...

【技术保护点】

1.一种面向智能驾驶场景的图像文本特征融合域适应目标检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤2中设计的文本提示短语，包含所有需要检测的感兴趣目标、其它可能在数据集中出现的有关目标和数据集场景的描述，描述需要准确表明目标的类别名称和数据集的场景名称。

3.根据权利要求1所述的方法，其特征在于，所述步骤3具体为：

4.根据权利要求1所述的方法，其特征在于，所述步骤3中以VGG16作为骨干网络，共包含vgg0、vgg1、vgg2、vgg3和vgg4五个层次，每个层次均包含3×3的卷积层、ReLU激活函数和最大池化层；在vgg1层后添加图像文本特征融合模块，在vgg4层添加特征级风格迁移模块。

5.根据权利要求1所述的方法，其特征在于，所述步骤4中的简单增强包含图像尺寸变化和随机翻转。

6.根据权利要求1所述的方法，其特征在于，所述步骤5中的复杂增强包含图像亮度变化、对比度变化、饱和度变化、灰度变化、高斯模糊处理和随机裁剪。

7.根据权利要求1所述的方法，其特征在于，所

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7任一所述的方法。

...

【技术特征摘要】

1.一种面向智能驾驶场景的图像文本特征融合域适应目标检测方法，其特征在于，包括如下步骤：

3.根据权利要求1所述的方法，其特征在于，所述步骤3具体为：

4.根据权利要求1所述的方法，其特征在于，所述步骤3中以vgg16作为骨干网络，共包含vgg0、vgg1、vgg2、vgg3和vgg4五个层次，每个层次均包含3×3的卷积层、relu激活函数和最大池化层；在vgg1层后添加图像文本特征融合模块，在vgg4层添加特征级风格迁移模块。

5.根据权利要求1所述的方法，其特征在于，所述步骤4中的简单增强包含图像尺寸变化...

【专利技术属性】
技术研发人员：李旻先，翁悦诚，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人