一种内容匹配方法及相关装置制造方法及图纸

技术编号：40172472 阅读：9 留言：0更新日期：2024-01-26 23:41

本申请提供了一种内容匹配方法以及相关装置。本申请实施例可应用于机器学习技术领域。其方法包括：获取目标图像及M个文本信息；通过图像特征提取网络对目标图像进行特征提取，生成图像特征信息；通过文本特征提取网络对M个文本信息进行特征提取，生成M个文本特征信息；通过目标核函数计算图像特征信息与M个文本特征信息的相似度，得到M个图文相似度结果；根据M个图文相似度结果确定目标文本信息。本申请实施例提供的方法通过目标核函数对图像特征信息与M个文本特征信息进行对比学习，得到M个图文相似度结果，进而根据M个图文相似度结果确定目标文本信息，在更高的维度上计算多模态之间的相似度，提高了图文匹配的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种内容匹配方法及相关装置。

技术介绍

1、对比学习(contrastive learning)是一种机器学习方法，用于通过比较不同数据样本之间的相似性和差异性来学习数据表示和特征提取。在多模态学习中，对比学习是一种常见的方法，具体到图像、文本的学习上，学习样本是一一配对的图像与文本对。

2、对比学习可以应用于图文检索、物体分类等多种场景。例如，在安防场景中，可以根据文字描述从搜索感兴趣的画面内容，例如输入“穿红色上衣黑色裤子带太阳眼镜的男人”，然后可以用算法在海量拍摄视频画面中搜索对应的画面，实现高效定位。又例如，在花卉识别场景中，通过将输入图片与花卉名称文本的匹配，就可以实现花卉智慧识别的功能；类似地还可以实现鸟类识别、猫狗品种识别、汽车识别应用。

3、在现有技术中，对待匹配的文本及图像分别进行特征提取后，将得到的文本特征与图像特征通过内积计算的方式进行相似度计算，而由于不同模态的信息之间存在天然的差异，直接把不同模态的信息提取成相同的特征表达难度较大，进而导致对比学习的难度较大，在图文检索或物体分类的场景中图文匹配的准确率较低。

技术实现思路

1、本申请实施例提供了一种内容匹配方法以及相关装置，通过目标核函数对目标图像提取得到的图像特征信息与文本信息提取得到的文本特征信息进行对比学习，得到图文相似度结果，提高了图文匹配的准确性，解决了现有技术中图文匹配的准确率较低的问题。

2、本申请的一方面提供一种内容匹配方法，包括：

3、获取目标图像及m个文本信息，其中，m为大于等于1的整数；

4、将目标图像作为图像特征提取网络的输入，通过图像特征提取网络对目标图像进行特征提取，生成图像特征信息；

5、将m个文本信息作为文本特征提取网络的输入，通过文本特征提取网络对m个文本信息进行特征提取，生成m个文本特征信息；

6、调用目标核函数，通过目标核函数计算图像特征信息与m个文本特征信息的相似度，得到m个图文相似度结果，其中，目标核函数用于将图像特征信息与m个文本特征信息进行升维，并对升维得到的目标图像特征信息与m个目标文本特征信息进行相似度运算；

7、根据m个图文相似度结果，从m个文本信息中确定目标文本信息，其中，目标文本信息对应的图文相似度结果为m个图文相似度结果中的最大值。

8、本申请的另一方面提供了一种内容匹配装置，包括：目标数据获取模块、图像特征提取模块、文本特征提取模块、图文相似度结果计算模块及目标文本信息确定模块；具体的：

9、目标数据获取模块，用于获取目标图像及m个文本信息，其中，m为大于等于1的整数；

10、图像特征提取模块，用于将目标图像作为图像特征提取网络的输入，通过图像特征提取网络对目标图像进行特征提取，生成图像特征信息；

11、文本特征提取模块，用于将m个文本信息作为文本特征提取网络的输入，通过文本特征提取网络对m个文本信息进行特征提取，生成m个文本特征信息；

12、图文相似度结果计算模块，用于调用目标核函数，通过目标核函数计算图像特征信息与m个文本特征信息的相似度，得到m个图文相似度结果，其中，目标核函数用于将图像特征信息与m个文本特征信息进行升维，并对升维得到的目标图像特征信息与m个目标文本特征信息进行相似度运算；

13、目标文本信息确定模块，用于根据m个图文相似度结果，从m个文本信息中确定目标文本信息，其中，目标文本信息对应的图文相似度结果为m个图文相似度结果中的最大值。

14、在本申请实施例的另一种实现方式中，图文相似度结果计算模块，还用于：

15、根据目标核函数确定目标核函数对应的目标特征空间；

16、将图像特征信息映射到目标特征空间，得到目标图像特征信息，其中，目标图像特征信息的维度数大于图像特征信息的维度数；

17、将m个文本特征信息映射到目标特征空间，得到m个目标文本特征信息，其中，目标文本特征信息的维度数大于文本特征信息的维度数；

18、调用目标核函数对目标图像特征信息与m个目标文本特征信息进行相似度计算，得到m个图文相似度结果。

19、在本申请实施例的另一种实现方式中，图文相似度结果计算模块，还用于：

20、获取生成对抗网络；

21、确定目标特征空间的维度数；

22、根据目标特征空间的维度数对生成对抗网络的参数进行配置，得到目标特征空间对应的目标生成对抗网络；

23、将图像特征信息作为目标生成对抗网络的输入，通过目标生成对抗网络对图像特征信息进行升维，得到目标图像特征信息，其中，目标图像特征信息的维度数与目标特征空间的维度数相等。

24、在本申请实施例的另一种实现方式中，图文相似度结果计算模块，还用于：

25、获取目标图像特征信息的维度数以及m个目标文本特征信息中每个目标文本特征信息的维度数；

26、根据目标图像特征信息的维度数以及m个目标文本特征信息中每个目标文本特征信息的维度数，对目标图像特征信息与每个目标文本特征信息进行内积计算，得到m个图文相似度结果。

27、在本申请实施例的另一种实现方式中，图像特征提取模块，还用于：

28、将目标图像作为图像特征提取网络中的图像切分模块的输入，通过图像切分模块对目标图像进行切分，得到k个目标子图，其中，k为大于1的整数；

29、将k个目标子图作为图像特征提取网络中的位置标记模块的输入，通过位置标记模块确定k个目标子图中的每个目标子图的位置信息，得到k个子图位置信息；

30、将k个目标子图及k个子图位置信息作为图像特征提取网络中的注意力机制模块的输入，通过注意力机制模块对k个目标子图及k个子图位置信息进行编码，生成图像特征信息。

31、在本申请实施例的另一种实现方式中，图像特征提取模块，还用于：

32、将k个目标子图作为注意力机制模块中的多头自注意力机制网络层的输入，通过多头自注意力机制层计算k个目标子图中两两目标子图的相似度，得到l个子图相似度值，其中，l＝k×(k-1)/2，l为大于1的整数；

33、将k个目标子图作为注意力机制模块中的前馈神经网络层的输入，通过前馈神经网络层提取k个目标子图中每个目标子图的特征，得到k个子图特征信息；

34、将l个子图相似度值、k个子图特征信息及k个子图位置信息作为注意力机制模块中的残差网络层的输入，通过残差网络层将l个子图相似度值、k个子图特征信息及k个子图位置信息进行特征拼接，得到图像特征信息。

35、在本申请实施例的另一种实现方式中，图像特征提取模块，还用于：

36、将目标图像作为图像切分模块中的切分网络层的输入，通过切分网络层对目标图像进行切分，生成k个子图像块；

37、将k个子图像块作为图像切分模块中的卷积网络层的本文档来自技高网...

【技术保护点】

1.一种内容匹配方法，其特征在于，包括：

2.如权利要求1所述的内容匹配方法，其特征在于，所述调用目标核函数，通过所述目标核函数计算所述图像特征信息与所述M个文本特征信息的相似度，得到M个图文相似度结果，包括：

3.如权利要求2所述的内容匹配方法，其特征在于，所述将所述图像特征信息映射到所述目标特征空间，得到所述目标图像特征信息，包括：

4.如权利要求2所述的内容匹配方法，其特征在于，所述调用所述目标核函数对所述目标图像特征信息与所述M个目标文本特征信息进行相似度计算，得到M个图文相似度结果，包括：

5.如权利要求1所述的内容匹配方法，其特征在于，所述将所述目标图像作为图像特征提取网络的输入，通过所述图像特征提取网络对所述目标图像进行特征提取，生成图像特征信息，包括：

6.如权利要求5所述的内容匹配方法，其特征在于，所述将所述K个目标子图及所述K个子图位置信息作为所述图像特征提取网络中的注意力机制模块的输入，通过所述注意力机制模块对所述K个目标子图及所述K个子图位置信息进行编码，生成图像特征信息，包括：

8.如权利要求1所述的内容匹配方法，其特征在于，所述将所述M个文本信息作为文本特征提取网络的输入，通过所述文本特征提取网络对所述M个文本信息进行特征提取，生成M个文本特征信息，包括：

9.如权利要求8所述的内容匹配方法，其特征在于，所述将所述M个分词特征集合作为所述文本特征提取网络中的自注意力模块的输入，通过自注意力模块对所述M个分词特征集合中的每个分词特征集合进行处理，生成M个分词自注意力特征集合，包括：

10.如权利要求1所述的内容匹配方法，其特征在于，所述方法还包括：

11.如权利要求10所述的内容匹配方法，其特征在于，所述训练图像特征信息包括N个训练图像特征值，所述训练文本特征信息包括N个训练文本特征值，N为大于1的整数；

12.一种内容匹配装置，其特征在于，包括：

13.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

14.一种计算机可读存储介质，包括指令，其特征在于，当其在计算机上运行时，使得计算机执行如权利要求1至11中任一项所述的内容匹配方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行如权利要求1至11中任一项所述的内容匹配方法。

...

【技术特征摘要】

1.一种内容匹配方法，其特征在于，包括：

2.如权利要求1所述的内容匹配方法，其特征在于，所述调用目标核函数，通过所述目标核函数计算所述图像特征信息与所述m个文本特征信息的相似度，得到m个图文相似度结果，包括：

3.如权利要求2所述的内容匹配方法，其特征在于，所述将所述图像特征信息映射到所述目标特征空间，得到所述目标图像特征信息，包括：

4.如权利要求2所述的内容匹配方法，其特征在于，所述调用所述目标核函数对所述目标图像特征信息与所述m个目标文本特征信息进行相似度计算，得到m个图文相似度结果，包括：

6.如权利要求5所述的内容匹配方法，其特征在于，所述将所述k个目标子图及所述k个子图位置信息作为所述图像特征提取网络中的注意力机制模块的输入，通过所述注意力机制模块对所述k个目标子图及所述k个子图位置信息进行编码，生成图像特征信息，包括：

7.如权利要求5所述的内容匹配方法，其特征在于，所述将所述目标图像作为所述图像特征提取网络中的图像切分模块的输入，通过所述图像切分模块对所述目标图像进行切分...

【专利技术属性】
技术研发人员：李德辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人