基于多标签分类的开集目标检测方法、装置、设备和介质制造方法及图纸

技术编号：43804542 阅读：19 留言：0更新日期：2024-12-27 13:22

本发明专利技术提供一种基于多标签分类的开集目标检测方法、装置、设备和介质，其中方法包括：在开集目标检测模型的融合层的任意一层中嵌入多标签分类层；将多标签分类层和开集目标检测模型的前K层转换为第一推理层，将开集目标检测模型的后N‑K层转换为第二推理层；将目标图像和预设的M个目标类别文本输入至第一推理层，得到图像特征和M个文本特征，以及M个目标类别文本的置信度；基于M个目标类别文本的置信度，对M个文本特征进行过滤，得到过滤后的m个文本特征；在m值不为零的情况下，将过滤后的m个文本特征和图像特征输入至第二推理层，得到目标图像的分类结果。本发明专利技术推理加速效果好，无需额外训练成本，不影响定位准确率，通用性强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及目标检测，尤其涉及一种基于多标签分类的开集目标检测方法、装置、设备和介质。

技术介绍

1、随着城市治理、安防监控、智慧交通等场景日趋复杂化，如何在复杂场景下提高开集目标检测的推理速度，是开集目标检测模型亟待解决的关键问题。在现有技术中，采用模型蒸馏的方案进行推理加速，定位准确性下降，需要额外的训练成本；采用模型量化的方案进行推理加速，通用性较差；采用模型枝剪的方案进行推理加速，需要特定的设备。

技术实现思路

1、本专利技术提供一种基于多标签分类的开集目标检测方法、装置、设备和介质，用以解决现有技术中采用模型蒸馏的方案进行推理加速，定位准确性下降，需要额外的训练成本；采用模型量化的方案进行推理加速，通用性较差；采用模型枝剪的方案进行推理加速，需要特定的设备的缺陷。

2、第一方面，本专利技术提供一种基于多标签分类的开集目标检测方法，包括：

3、在开集目标检测模型的融合层的任意一层中嵌入多标签分类层，所述开集目标检测模型包括n层，n为大于等于1的自然数；

4、将所述多标签分类层和所述开集目标检测模型中位于所述多标签分类层之前的前k层转换为第一推理层，将所述开集目标检测模型中位于所述多标签分类层之后的n-k层转换为第二推理层，k为大于等于1的自然数；

5、将目标图像和预设的m个目标类别文本输入至所述第一推理层，得到所述第一推理层输出的所述目标图像对应的图像特征和m个文本特征，以及所述m个目标类别文本的置信度， m为大于等于1的自然数；

6、基于所述m个目标类别文本的置信度，对所述m个文本特征进行过滤，得到过滤后的m个文本特征，m为非负整数；

7、在m值不为零的情况下，将所述过滤后的m个文本特征和所述图像特征输入至所述第二推理层，得到所述第二推理层输出的所述目标图像的分类结果；

8、其中，所述开集目标检测模型是基于样本图像和多个样本类别文本，以及所述样本图像的分类标签进行训练得到的。

9、在一些实施例中，所述将目标图像和预设的m个目标类别文本输入至所述第一推理层，得到所述第一推理层输出的所述目标图像对应的图像特征和m个文本特征，以及所述m个目标类别文本的置信度，包括：

10、将所述目标图像和预设的m个目标类别文本输入至所述前k层，得到所述前k层输出的所述目标图像对应的区域级的图像特征和m个文本特征；

11、基于所述多标签分类层，计算每一文本特征与对应区域的图像特征的相似度，基于所述每一文本特征与对应区域的图像特征的相似度，计算所述每一文本特征的类别置信度。

12、在一些实施例中，所述基于所述m个目标类别文本的置信度，对所述m个文本特征进行过滤，得到过滤后的m个文本特征，包括：

13、基于所述m个目标类别文本的置信度和预设阈值，对所述m个文本特征进行过滤，得到所述过滤后的m个文本特征。

14、在一些实施例中，所述得到过滤后的m个文本特征之后，还包括：

15、在m值为零的情况下，所述开集目标检测模型直接输出所述目标图像的分类结果为空。

16、在一些实施例中，所述开集目标检测模型的训练过程包括：

17、获取样本图像和多个样本类别文本，确定样本图像的分类标签；

18、以所述样本图像和多个样本类别文本为训练样本，以所述样本图像的分类标签为样本标签训练初始开集目标检测模型；

19、对所述初始开集目标检测模型的参数进行迭代优化，得到所述开集目标检测模型。

20、在一些实施例中，所述初始开集目标检测模型包括第一初始推理层和第二初始推理层，所述第一初始推理层包括初始多标签分类层和初始前k层，所述初始前k层是指所述初始开集目标检测模型中位于所述初始多标签分类层之前的k层，所述初始开集目标检测模型包括n层；

21、对应地，所述训练初始开集目标检测模型，包括：

22、将所述样本图像和多个样本类别文本输入至所述初始前k层，得到所述初始前k层输出的所述样本图像对应的区域级的样本图像特征和多个样本文本特征；

23、基于所述初始多标签分类层，计算每一样本文本特征与对应区域的样本图像特征的相似度；

24、基于所述每一文本特征与对应区域的图像特征的相似度和所述样本图像的分类标签，计算损失函数值；

25、基于所述损失函数值，训练所述初始多目标分类层。

26、第二方面，本专利技术还提供一种基于多标签分类的开集目标检测装置，包括：

27、嵌入单元，用于在开集目标检测模型的融合层的任意一层中嵌入多标签分类层，所述开集目标检测模型包括n层，n为大于等于1的自然数；

28、转换单元，用于将所述多标签分类层和所述开集目标检测模型中位于所述多标签分类层之前的前k层转换为第一推理层，将所述开集目标检测模型中位于所述多标签分类层之后的n-k层转换为第二推理层，k为大于等于1的自然数；

29、推理单元，用于将目标图像和预设的m个目标类别文本输入至所述第一推理层，得到所述第一推理层输出的所述目标图像对应的图像特征和m个文本特征，以及所述m个目标类别文本的置信度， m为大于等于1的自然数；

30、过滤单元，用于基于所述m个目标类别文本的置信度，对所述m个文本特征进行过滤，得到过滤后的m个文本特征，m为非负整数；

31、分类单元，用于在m值不为零的情况下，将所述过滤后的m个文本特征和所述图像特征输入至所述第二推理层，得到所述第二推理层输出的所述目标图像的分类结果；

32、其中，所述开集目标检测模型是基于样本图像和多个样本类别文本，以及所述样本图像的分类标签进行训练得到的。

33、第三方面，本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于多标签分类的开集目标检测方法。

34、第四方面，本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于多标签分类的开集目标检测方法。

35、第五方面，本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于多标签分类的开集目标检测方法。

36、本专利技术提供的基于多标签分类的开集目标检测方法、装置、设备和介质，通过在开集目标检测模型的融合层的任意一层中嵌入多标签分类层，将多标签分类层和开集目标检测模型中的前k层转换为第一推理层，将开集目标检测模型中的后n-k层转换为第二推理层，将目标图像和预设的m个目标类别文本输入至第一推理层，得到目标图像对应的图像特征和m个文本特征，以及m个目标类别文本的置信度，基于m个目标类别文本的置信度，对m个文本特征进行过滤，得到过滤后的m个文本特征，在m值不为零的情况下，将过滤后的m个文本特征和图像特征输入至第二推理层，得本文档来自技高网...

【技术保护点】

1.一种基于多标签分类的开集目标检测方法，其特征在于，包括：

2.根据权利要求1所述的基于多标签分类的开集目标检测方法，其特征在于，所述将目标图像和预设的M个目标类别文本输入至所述第一推理层，得到所述第一推理层输出的所述目标图像对应的图像特征和M个文本特征，以及所述M个目标类别文本的置信度，包括：

3.根据权利要求1所述的基于多标签分类的开集目标检测方法，其特征在于，所述基于所述M个目标类别文本的置信度，对所述M个文本特征进行过滤，得到过滤后的m个文本特征，包括：

4.根据权利要求1所述的基于多标签分类的开集目标检测方法，其特征在于，所述得到过滤后的m个文本特征之后，还包括：

5.根据权利要求1所述的基于多标签分类的开集目标检测方法，其特征在于，所述开集目标检测模型的训练过程包括：

6.根据权利要求5所述的基于多标签分类的开集目标检测方法，其特征在于，所述初始开集目标检测模型包括第一初始推理层和第二初始推理层，所述第一初始推理层包括初始多标签分类层和初始前K层，所述初始前K层是指所述初始开集目标检测模型中位于所述初始多标

7.一种基于多标签分类的开集目标检测装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于多标签分类的开集目标检测方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于多标签分类的开集目标检测方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于多标签分类的开集目标检测方法。

...

【技术特征摘要】

1.一种基于多标签分类的开集目标检测方法，其特征在于，包括：

2.根据权利要求1所述的基于多标签分类的开集目标检测方法，其特征在于，所述将目标图像和预设的m个目标类别文本输入至所述第一推理层，得到所述第一推理层输出的所述目标图像对应的图像特征和m个文本特征，以及所述m个目标类别文本的置信度，包括：

3.根据权利要求1所述的基于多标签分类的开集目标检测方法，其特征在于，所述基于所述m个目标类别文本的置信度，对所述m个文本特征进行过滤，得到过滤后的m个文本特征，包括：

4.根据权利要求1所述的基于多标签分类的开集目标检测方法，其特征在于，所述得到过滤后的m个文本特征之后，还包括：

5.根据权利要求1所述的基于多标签分类的开集目标检测方法，其特征在于，所述开集目标检测模型的训练过程包括：

6.根据权利要求5所述的基于多标签分类的开集目标检测方法，其特征在于，所述初始开...

【专利技术属性】
技术研发人员：陈其博，余立，丛鹏宇，严昱超，金炜众，厉舒畅，刘梦迪，葛建跃，郭轩江，
申请(专利权)人：中国移动通信集团浙江有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人