多模态模型的训练方法和目标对象检测方法及其系统技术方案

技术编号：41126493 阅读：4 留言：0更新日期：2024-04-30 17:54

本申请实施例提供了一种多模态模型的训练方法和目标对象检测方法及其系统。训练方法包括：获取初始样本对，其中初始样本对包括初始正样本对，初始正样本对由初始图像和与初始图像匹配的初始文本组成；利用初始样本对对多模态模型执行第一训练操作，其中多模态模型包括图像编码器和文本编码器；根据初始正样本对，确定第一扩展样本对，其中第一扩展样本对中的图像包括初始图像的关联图像和/或第一扩展样本对中的文本是初始文本的关联文本；至少利用第一扩展样本对对经第一训练的多模态模型执行第二训练操作。该方案训练得到的多模态模型中的文本编码器和图像编码器的表征能力可以得到显著提高。并且，可以提高多模态模型的鲁棒性和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及点云处理，具体地，涉及一种多模态模型的训练方法、一种目标对象检测方法、一种多模态模型的训练系统、一种目标对象检测系统、一种电子设备及一种存储介质。

技术介绍

1、计算机视觉系统经过训练可以预测一组固定的目标对象的类别。这种监督形式的限制了它们的通用性和可用性。一些多模态模型引入文本信息并和相应的图片信息组成样本对，进行对比学习。这些多模态模型由于具有庞大的数据集和多模态信息的引入，因此在下游的无监督任务上表现很出色。

2、然而，现有的多模态模型的训练方法往往仅利用原始的数据集中的样本对进行训练，训练后的编码器的表征能力往往有限，很难为下游更为复杂的图像任务提供更多的有用信息。

技术实现思路

1、为了至少部分地解决现有技术中存在的问题，根据本申请的第一个方面，提供了一种多模态模型的训练方法，包括：

2、获取初始样本对，其中初始样本对包括初始正样本对，初始正样本对由初始图像和与初始图像匹配的初始文本组成；

3、利用初始样本对对多模态模型执行第一训练操作，其中多模态模型包括图像编码器和文本编码器；

4、根据初始正样本对，确定第一扩展样本对，其中第一扩展样本对中的图像包括初始图像的关联图像和/或第一扩展样本对中的文本是初始文本的关联文本；以及

5、至少利用第一扩展样本对对经第一训练的多模态模型执行第二训练操作。

6、示例性地，根据初始正样本对，确定第一扩展样本对，包括：

7、从知识图谱库中搜索初始

8、根据初始图像的语义信息，从知识图谱库中搜索初始图像的关联图像，作为扩展图像；以及

9、将扩展文本与初始图像或扩展图像中的一者进行匹配，或者将扩展图像与初始文本、扩展文本或初始图像中的一者进行匹配，以生成第一扩展样本对。

10、示例性地，至少利用第一扩展样本对对经第一训练的多模态模型执行第二训练操作，包括：

11、根据第一扩展样本对中的文本和图像的关系或者图像和图像的关系，确定第一扩展样本对的类型，其中第一扩展样本对的类型包括扩展正样本对和扩展负样本对；

12、根据第一扩展样本对的类型，确定与第一扩展样本对对应的目标函数，其中扩展正样本对对应的目标函数与扩展负样本对对应的目标函数不同；

13、至少利用第一扩展样本对和与第一扩展样本对对应的目标函数对经第一训练的多模态模型执行第二训练操作。

14、示例性地，至少利用扩展样本对对经第一训练的多模态模型执行第二训练操作，包括：

15、利用初始样本对、第一扩展样本对以及与各个样本对对应的目标函数，对经第一训练的多模态模型进行训练。

16、示例性地，第一扩展样本对中包括由第一扩展文本和初始图像组成的第一扩展正样本对，第一扩展文本与初始文本的语义相近；其中，

17、与初始正样本对对应的目标函数f1和与第一扩展正样本对对应的目标函数f2分别利用以下公式表示：

18、f1＝minimize d1；

19、f2＝minimize||d2-margin||；

20、其中，d1表示图像编码器所提取的初始图像的第一特征和文本编码器所提取的初始文本的第二特征之间的距离；d2表示第一特征和文本编码器所提取的第一扩展文本的第三特征之间的距离；margin表示距离阈值。

21、示例性地，训练方法还包括：

22、利用图像描述生成算法对初始图像进行描述，以确定描述句子；

23、根据描述句子和初始图像，生成第二扩展样本对；以及

24、至少利用第二扩展样本对对经第二训练的多模态模型执行第三训练操作。

25、示例性地，训练方法还包括：

26、对描述句子进行主体提取，确定句子主体；以及

27、根据句子主体和初始图像，生成第三扩展样本对；

28、至少利用第二扩展样本对对经第二训练的多模态模型执行第三训练操作，包括：

29、至少利用第二扩展样本对和第三扩展样本对对经第二训练的多模态模型执行第三训练操作。

30、示例性地，训练方法还包括：

31、对初始图像进行视觉问答，确定与初始图像相关的问答语句；以及

32、利用问答语句和初始图像，生成第四扩展样本对；

33、至少利用第二扩展样本对和第三扩展样本对对经第二训练的多模态模型执行第三训练操作，包括：

34、至少利用第二扩展样本对、第三扩展样本对和第四扩展样本对对经第二训练的多模态模型执行第三训练操作。

35、示例性地，至少利用第二扩展样本对对经第二训练的多模态模型执行第三训练操作，包括：

36、利用初始样本对、第一扩展样本对和第二扩展样本对对经第二训练的多模态模型执行第三训练操作。

37、根据本申请另一方面，还提供一种目标对象检测方法，包括：

38、获取待检测图像，其中待检测图像中包括至少一种目标对象；

39、利用训练好的多模态模型中的图像编码器，对待检测图像进行特征提取，以确定待检测图像的图像特征，其中利用上述训练方法训练多模态模型；

40、根据图像特征，确定检测结果，其中检测结果包括待检测图像中的各个目标对象的类别和/或各个目标对象所在的位置。

41、根据本申请另一方面，还提供一种多模态模型的训练系统，包括：

42、第一获取模块，用于获取初始样本对，其中初始样本对包括初始正样本对，初始正样本对由初始图像和与初始图像匹配的初始文本组成；

43、第一训练模块，用于利用初始样本对对多模态模型执行第一训练操作，其中多模态模型包括图像编码器和文本编码器；

44、第一确定模块，用于根据初始正样本对，确定第一扩展样本对，其中第一扩展样本对中的图像包括初始图像的关联图像和/或第一扩展样本对中的文本是初始文本的关联文本；以及

45、第二训练模块，用于至少利用第一扩展样本对对经第一训练的多模态模型执行第二训练操作。

46、根据本申请另一方面，还提供一种目标对象检测系统，包括：

47、第二获取模块，用于获取待检测图像，其中待检测图像中包括至少一种目标对象；

48、特征提取模块，用于利用训练好的多模态模型中的图像编码器，对待检测图像进行特征提取，以确定待检测图像的图像特征，其中利用上述训练方法训练多模态模型；

49、第二确定模块，用于根据图像特征，确定检测结果，其中检测结果包括待检测图像中的各个目标对象的类别和/或各个目标对象所在的位置。

50、根据本申请另一方面，还提供一种电子设备，包括处理器和存储器，存储器中存储有计算机程序指令，计算机程序指令被处理器运行时用于执行如上述多模态模型的训练方法和/或上述目标对象检测方法。

51、根据本申请另一方面本文档来自技高网...

【技术保护点】

1.一种多模态模型的训练方法，其特征在于，包括：

2.如权利要求1所述的多模态模型的训练方法，其特征在于，所述根据所述初始样本对，确定第一扩展样本对，包括：

3.如权利要求2所述的多模态模型的训练方法，其特征在于，所述至少利用所述第一扩展样本对对经第一训练的多模态模型执行第二训练操作，包括：

4.如权利要求2所述的多模态模型的训练方法，其特征在于，所述至少利用所述扩展样本对对经第一训练的多模态模型执行第二训练操作，包括：

5.如权利要求4所述的多模态模型的训练方法，其特征在于，所述第一扩展样本对中包括由第一扩展文本和所述初始图像组成的第一扩展正样本对，所述第一扩展文本与所述初始文本的语义相近；其中，

6.如权利要求2至5任一项所述的多模态模型的训练方法，其特征在于，所述训练方法还包括：

7.如权利要求6所述的多模态模型的训练方法，其特征在于，所述训练方法还包括：

8.如权利要求7所述的多模态模型的训练方法，其特征在于，所述训练方法还包括：

9.如权利要求6所述的多模态模型的训练方法，其

10.一种目标对象检测方法，其特征在于，包括：

11.一种多模态模型的训练系统，其特征在于，包括：

12.一种目标对象检测系统，其特征在于，包括：

13.一种电子设备，包括处理器和存储器，其特征在于，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至9任一项所述的多模态模型的训练方法和/或如权利要求10所述的目标对象检测方法。

14.一种存储介质，在所述存储介质上存储了程序指令，其特征在于，所述程序指令在运行时用于执行如权利要求1至9任一项所述的多模态模型的训练方法和/或如权利要求10所述的目标对象检测方法。

...

【技术特征摘要】