跨模态检索模型的训练方法及装置制造方法及图纸

技术编号：40182668 阅读：9 留言：0更新日期：2024-01-26 23:48

本发明专利技术公开了一种跨模态检索模型训练方法即装置，涉及人工智能技术领域。本发明专利技术的方法训练方法包括：提取训练集中数据对的文本局部特征和图像局部特征；基于图卷积神经网络推理文本局部特征与图像局部特征之间的关系，得到联合特征；解耦联合特征；对数据对进行跨模态一致性学习，得到图像特征和文本特征的一致性分数；基于解耦后的文本特征、图像特征、一致性分数训练跨模态检索模型。本发明专利技术融合了关系结构和图相似性特征，通过图神经网络聚合同一模态及异构模态局部特征之间的关系结构信息，再通过特征解耦重构局部特征，充分抓取图文模态内、模态间的关系结构信息，上下文语义，提高了语义理解程度，使得训练的跨模态检索模型准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种跨模态检索模型的训练方法。

技术介绍

1、随着互联网的发展，各种大型社交网站每天产生数亿规模的图像、文本等数据，为满足当今时代下人们的需求，跨模态检索任务成为近年来的研究热点。跨模态检索包括由文本对图像检索以及由图像对文本检索。图像文字的跨模态检索任务不但要求机器认识图像信息和文字信息，同时还要学习图像信息和文字信息之间的关联，并且将语义最相近的图像文本对匹配，找出一个或多个最佳的匹配图文对。

2、现有的跨模态检索方法可以大致分为两类，即全局特征匹配和局部特征匹配。前者专注于学习两种模态之间的全局语义对齐，将整个图像和文本映射到同一联合嵌入空间。后者侧重于学习局部特征对齐以推断图像文本之间的相似性，即视觉区域和文本单词之间的匹配。然而基于全局特征匹配的方法忽略了图像模态和文本模态的局部细节以及局部区域之间的联系，该方法在只包含单个对象的简单跨模态图文检索任务中表现的很好，对于更真实的复杂自然场景跨模态图文检索结果不尽人意。基于局部特征匹配的方法则更加关注细粒度特征，如图片中的显著性区域、文本中的单词等，但仍然忽视了模态内的关系结构信息、上下文语义等，导致检索过程中会出现歧义，降低检索的准确率。

技术实现思路

1、本专利技术提供一种跨模态检索模型的训练方法装置，以解决对真实复杂自然场景的跨模态图文检索准确率不高的问题。

2、本专利技术通过下述技术方案实现：

3、本专利技术的第一方面，提供了一种跨模态检索模型的训练方法，包括：

4、获取跨模态数据训练集，所述训练集包含多个图像-文本数据对；

5、提取所述数据对的文本初始局部特征和图像初始局部特征；

6、基于图卷积神经网络推理所述文本局部特征与所述图像局部特征之间的关系，得到联合特征；

7、解耦所述联合特征，得到融合模态内与模态间关系结构语义的文本解耦特征和图像解耦特征；

8、基于所述局部特征和所述解耦特征对所述数据对进行跨模态一致性学习，得到图像特征和文本特征的一致性分数；

9、基于所述一致性分数建立损失函数训练跨模态检索模型。

10、本专利技术提供一种融合关系结构和图相似性的跨模态检索方法，通过图卷积神经网络聚合同一模态及异构模态局部特征之间的关系结构信息，再通过特征解耦重构图像和文本的局部特征，使其融合关系结构信息，充分抓取图文模态内、模态间的关系结构信息，以及上下文语义，提高了语义理解程度，使得跨模态检索结果的准确率更高。

11、进一步地，提取文本局部特征，包括：

12、基于双向门控循环单元提取每个文本单词的前向特征和后向特征；

13、取单词的前向特征和后向特征的均值作为所述单词特征；

14、组合各所述单词特征得到文本局部特征。

15、进一步地，提取图像局部特征，包括：

16、采用目标检测模型提取出图像的目标区域特征，再用全连接网络将所述目标区域特征映射成最终特征，得到图像局部特征。

17、进一步地，基于图卷积神经网络推理所述文本局部特征与所述图像局部特征之间的关系，得到联合特征，包括：

18、在图像区域和单词的维度上将图像局部特征与文本局部特征拼接，得到拼接特征：

19、

20、其中，v是图像局部特征，t是文本局部特征；

21、利用图卷积神经网络建立全连接图，推理图像特征与文本特征节点之间的关系：

22、

23、其中，为拼接特征h中的第i个节点的特征向量，gcn为图卷积神经网络，l为gcn层数层数，hj为与hi相邻的特征节点，wl为图卷积神经网络的学习参数，a是图卷积神经网络的全连接权重矩阵；

24、所述gcn模型为基于残差连接的gcn模型，即：

25、hm+1＝gcn(gcn(hm)+h)

26、其中，m为gcn模型的层数，hm+1为经gcn推理后得到的图像文本联合特征，h为拼接特征。

27、进一步地，解耦联合特征，得到融合模态内与模态间关系结构语义的文本解耦特征和图像解耦特征，包括：

28、利用注意力机制分别计算经推理后的联合特征与原始特征之间的注意力权重，并对推理后的联合特征进行加权，得到文本解耦特征和图像解耦特征。

29、进一步地，该方法还包括：

30、将所述图像解耦特征和所述文本解耦特征分别输入基于残差连接的多层前馈神经网络，得到最终的图像解耦特征和文本结构特征；

31、基于局部特征和所述解耦特征对所述数据对进行跨模态一致性学习，得到图像特征和文本特征的一致性分数，包括：

32、基于所述局部特征和所述最终的图像解耦特征和文本解耦征对所述数据对进行跨模态一致性学习，得到局部特征之间的一致性分数。

33、进一步地，基于局部特征和所述解耦特征对所述数据对进行跨模态一致性学习，得到图像特征和文本特征的一致性分数，包括：

34、采用多粒度的一致性学习方法对训练集中的图像-文本数据对进行跨模态一致性学习，得到图像特征和文本特征的多粒度一致性分数，所述多粒度一致性分数包括局部特征之间的一致性、局部特征与全局特征之间的一致性和全局特征之间的一致性。

35、进一步地，局部特征之间的一致性分数为：

36、

37、其中，为图像解耦特征与图像原始特征之间的一致性分数，为文本解耦特征与文本原始特征之间的一致性分数；

38、所述局部特征与全局特征之间的一致性分数为：

39、

40、其中，为图像全局特征与受文本关注的图像局部特征之间的一致性分数，为文本全局特征与受图像关注的文本局部特征之间的一致性分数；

41、所述全局特征之间的一致性分数如下式所示：

42、s2(i,t)＝θ(gv,gt)

43、其中，gv和gt分别是图像和文本的全局特征，θ为余弦相似度计算函数。

44、进一步地，损失函数采用铰链三元排序损失函数，表示为：

45、l(i,t)＝[σ-s(i,t)+s(i,t′)]++[σ-s(i,t)+s(i′,t′)]-

46、其中，σ为边缘参数，[]+表示取最大值，[]-表示取最小值，s(i,t)是图像特征和文本特征的多粒度一致性分数，i′、t′分别表示最小批量(batch)图像和文本正样本对应的负样本。

47、本专利技术的第二方面，提供了一种跨模态检索模型的训练装置，包括：

48、数据接收模块，被配置为获取跨模态数据训练集，所述训练集包含多个图像-文本数据对；

49、特征提取模块，被配置为提取所述数据对的文本局部特征和图像局部特征；

50、所述特征提取模块，还用于基于图卷积神经网络推理所述文本局部特征与所述图像局部特征之间的关系，得到联合特征；

51、所述特本文档来自技高网...

【技术保护点】

1.一种跨模态检索模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取文本局部特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述提取图像局部特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于图卷积神经网络推理所述文本局部特征与所述图像局部特征之间的关系，得到联合特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述解耦所述联合特征，得到融合模态内与模态间关系结构语义的文本解耦特征和图像解耦特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述局部特征和所述解耦特征对所述数据对进行跨模态一致性学习，得到图像特征和文本特征的一致性分数，包括：

8.根据权利要求7所述的方法，其特征在于，所述局部特征之间的一致性分数为：

9.根据权利要求7所述的方法，其特征在于，

10.一种跨模态检索模型的训练装置，其特征在于，包括：

【技术特征摘要】

1.一种跨模态检索模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取文本局部特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述提取图像局部特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于图卷积神经网络推理所述文本局部特征与所述图像局部特征之间的关系，得到联合特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述解耦所述联合特征，得到融合模态内与模态间关系结构语义...

【专利技术属性】
技术研发人员：吴渝，王志文，蒲晓，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人