图文数据匹配检测方法、装置、设备及介质制造方法及图纸

技术编号：41262263 阅读：5 留言：0更新日期：2024-05-11 09:19

本发明专利技术涉及人工智能领域，公开了一种图文数据匹配检测方法、装置、设备及介质，包括：将图像和文本描述输入至多模态大模型；采用特征提取模块对图像和文本描述进行特征提取，得到初始视觉特征和初始文本特征；利用多模态融合模块对初始视觉特征和初始文本特征进行融合处理，其中使用自注意力机制模块对初始文本特征进行语义学习，并使用交叉注意力模块将初始视觉特征与自注意力机制模块输出的特征信息进行特征融合；采用分类器模块对融合后的特征进行降维处理，得到匹配度分数并输出匹配结果。这样可以解决长文本和复杂语境的问题和图像文本交互能力的缺陷，提高处理文本数据的能力，实现多模态数据之间的信息融合，提升匹配结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，特别是涉及一种图文数据匹配检测方法、装置、设备及介质。

技术介绍

1、近年来，社交媒体、视频和图像应用的普及丰富了人机交互的范式，也让文本、图像和音频等多模态数据的处理和应用成为了研究的重要方向。同时，利用大模型对不同模态数据进行跨模态的统一表征学习是一种更为接近人类的学习模式。在此背景下，多模态大模型（multimodal large language model，mllm）作为处理多模态数据的有效工具受到了广泛关注。多模态数据作为多模态大模型训练的关键要素，其质量对于模型的性能具有至关重要的作用。

2、传统的多模态大模型通常通过相似度计算的方法对图文数据匹配度进行检测，但是仅通过对比学习的方法对图像文本编码进行相似度计算，无法更好地提取图像和文本的交互信息，并且对于长文本数据和复杂的语境理解比较有限，无法针对长文本描述类数据进行有效的质量检测。

技术实现思路

1、本专利技术的目的是提供一种图文数据匹配检测方法、装置、设备及介质，可以提高处理文本数据的能力，实现多模态数据之间的信息融合，提升多模态数据匹配结果的准确性。

2、为了解决上述技术问题，本专利技术提供一种图文数据匹配检测方法，所述方法包括：

3、将图像和文本描述输入至多模态大模型；所述多模态大模型包括特征提取模块，多模态融合模块和分类器模块；所述多模态融合模块包括自注意力机制模块和交叉注意力模块；

4、采用所述特征提取模块对图像和文本描述进行特征

5、利用所述多模态融合模块对所述初始视觉特征和所述初始文本特征进行融合处理；其中，使用所述自注意力机制模块对所述初始文本特征进行语义学习，并使用所述交叉注意力模块将所述初始视觉特征与所述自注意力机制模块输出的特征信息根据权重进行特征融合；

6、采用所述分类器模块对融合处理后的特征进行降维处理，得到相应的匹配度分数并输出匹配结果。

7、第一方面，在本专利技术提供的上述图文数据匹配检测方法中，所述特征提取模块包括视觉特征提取模块和基于嵌入层的文本特征提取模块；

8、对应地，采用所述特征提取模块对图像和文本描述进行特征提取，得到初始视觉特征和初始文本特征，包括：

9、利用所述视觉特征提取模块对图像进行特征提取，得到初始视觉特征；

10、采用所述文本特征提取模块对文本描述进行编码，得到初始文本特征。

11、另一方面，在本专利技术提供的上述图文数据匹配检测方法中，所述自注意力机制模块包括第一均方根归一化层和自注意力机制层；

12、对应地，使用所述自注意力机制模块对所述初始文本特征进行语义学习，包括：

13、使用所述第一均方根归一化层对所述初始文本特征进行归一化，得到归一化文本特征；

14、使用所述自注意力机制层计算所述归一化文本特征中各个位置的权重并结合所述归一化文本特征进行加权处理，得到加权文本特征；

15、将所述加权文本特征和所述初始文本特征进行相加，得到第一相加结果并传输至所述交叉注意力模块。

16、另一方面，在本专利技术提供的上述图文数据匹配检测方法中，所述自注意力机制层对应的公式为：

17、；

18、；

19、；

20、；

21、其中，表示所述归一化文本特征的查询，表示所述归一化文本特征的键，表示所述归一化文本特征的值，表示自注意力机制，表示所述归一化文本特征的键和所述归一化文本特征的值的维度，表示转置，表示归一化指数函数，、和均为投影矩阵参数，表示所述归一化文本特征。

22、另一方面，在本专利技术提供的上述图文数据匹配检测方法中，所述交叉注意力模块包括第二均方根归一化层和交叉注意力层；

23、对应地，使用所述交叉注意力模块将所述初始视觉特征与所述自注意力机制模块输出的特征信息根据权重进行特征融合，包括：

24、使用所述第二均方根归一化层对所述第一相加结果进行归一化；

25、使用所述交叉注意力层将所述初始视觉特征和所述第二均方根归一化层输出的归一化特征信息进行特征融合。

26、另一方面，在本专利技术提供的上述图文数据匹配检测方法中，使用所述交叉注意力层将所述初始视觉特征和所述第二均方根归一化层输出的归一化特征信息进行特征融合，包括：

27、利用所述交叉注意力层学习所述初始视觉特征和所述第二均方根归一化层输出的归一化特征信息之间的相关性矩阵，将所述初始视觉特征中的每个位置与所述第二均方根归一化层输出的归一化特征信息的所有位置进行加权求和，获取跨模态的关联信息，以完成特征融合。

28、另一方面，在本专利技术提供的上述图文数据匹配检测方法中，所述交叉注意力层对应的公式为：

29、；

30、；

31、；

32、；

33、其中，表示所述初始视觉特征，表示所述第二均方根归一化层输出的归一化特征信息，表示交叉注意力，表示所述初始视觉特征和归一化特征信息的查询，表示所述初始视觉特征和归一化特征信息的键，表示所述初始视觉特征和归一化特征信息的值，表示所述初始视觉特征和归一化特征信息的键和所述初始视觉特征和归一化特征信息的值的维度，表示转置，表示归一化指数函数，、和均为投影矩阵参数。

34、另一方面，在本专利技术提供的上述图文数据匹配检测方法中，所述多模态融合模块还包括多层感知机模块；

35、在利用所述多模态融合模块对所述初始视觉特征和所述初始文本特征进行融合处理的过程中，还包括：

36、利用所述多层感知机模块将所述交叉注意力模块输出的特征向量从不同维度进行交互。

37、另一方面，在本专利技术提供的上述图文数据匹配检测方法中，所述多层感知机模块包括第一线性层，引入门控机制的线性变换层，第二线性层；

38、对应地，利用所述多层感知机模块将所述交叉注意力模块输出的特征向量从不同维度进行交互，包括：

39、利用所述第一线性层增大所述交叉注意力模块输出的特征向量的维度；

40、利用所述引入门控机制的线性变换层对所述第一线性层输出特征的不同部分进行选择性的激活或抑制；

41、利用所述第二线性层将所述引入门控机制的线性变换层输出特征的维度降低至所述交叉注意力模块输出的维度值。

42、另一方面，在本专利技术提供的上述图文数据匹配检测方法中，所述多模态融合模块还包括前馈神经网络；

43、在利用所述多层感知机模块将所述交叉注意力模块输出的特征向量从不同维度进行交互之前，还包括：

44、将所述第一相加结果和所述交叉注意力模块输出的特征向量进行相加，得到第二相加结果，并传输至所述前馈神经网络；

45、利用所述前馈神经网络对所述第二相加结果进行特征提取；

46、将本文档来自技高网...

【技术保护点】

1.一种图文数据匹配检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图文数据匹配检测方法，其特征在于，所述特征提取模块包括视觉特征提取模块和基于嵌入层的文本特征提取模块；

3.根据权利要求1所述的图文数据匹配检测方法，其特征在于，所述自注意力机制模块包括第一均方根归一化层和自注意力机制层；

4.根据权利要求3所述的图文数据匹配检测方法，其特征在于，所述自注意力机制层对应的公式为：

5.根据权利要求3所述的图文数据匹配检测方法，其特征在于，所述交叉注意力模块包括第二均方根归一化层和交叉注意力层；

6.根据权利要求5所述的图文数据匹配检测方法，其特征在于，使用所述交叉注意力层将所述初始视觉特征和所述第二均方根归一化层输出的归一化特征信息进行特征融合，包括：

7.根据权利要求6所述的图文数据匹配检测方法，其特征在于，所述交叉注意力层对应的公式为：

8.根据权利要求3所述的图文数据匹配检测方法，其特征在于，所述多模态融合模块还包括多层感知机模块；

9.根据权利要求8所述的图文数据

10.根据权利要求9所述的图文数据匹配检测方法，其特征在于，所述多模态融合模块还包括前馈神经网络；

11.根据权利要求1所述的图文数据匹配检测方法，其特征在于，所述分类器模块包括第三线性层和第四线性层；

12.根据权利要求11所述的图文数据匹配检测方法，其特征在于，在训练所述分类器模块的过程中，包括：

13.一种图文数据匹配检测装置，其特征在于，所述装置包括：

14.一种图文数据匹配检测设备，其特征在于，所述设备包括：

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的图文数据匹配检测方法的步骤。

...

【技术特征摘要】

1.一种图文数据匹配检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图文数据匹配检测方法，其特征在于，所述特征提取模块包括视觉特征提取模块和基于嵌入层的文本特征提取模块；

3.根据权利要求1所述的图文数据匹配检测方法，其特征在于，所述自注意力机制模块包括第一均方根归一化层和自注意力机制层；

4.根据权利要求3所述的图文数据匹配检测方法，其特征在于，所述自注意力机制层对应的公式为：

5.根据权利要求3所述的图文数据匹配检测方法，其特征在于，所述交叉注意力模块包括第二均方根归一化层和交叉注意力层；

7.根据权利要求6所述的图文数据匹配检测方法，其特征在于，所述交叉注意力层对应的公式为：

8.根据权利要求3所述的图文数据...

【专利技术属性】
技术研发人员：申强，王申领，吴韶华，罗建刚，赵旭东，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人