【技术实现步骤摘要】
跨模态互检索的方法、装置、服务器及存储介质
[0001]本申请涉及数据处理
,特别涉及一种跨模态互检索神经网络的训练方法、另一种训练方法、三种跨模态互检索方法、训练装置、图像文本检索装置、服务器以及计算机可读存储介质。
技术介绍
[0002]随着信息技术的不断发展,在越来越多的领域中可以应用人工智能技术,以提高对数据进行处理的效率和效果。其中,在文本数据和图像数据的识别领域中,可以采用对应的模型进行识别,得到回归结果或分类结果。
[0003]相关技术中,在多模态领域中需要对多模态数据进行多结构文本和图像序列的互检任务。其中,多模态指的是既包含文本,也包含图像序列的数据。多结构文本指的是文本可以按照其语义不同,划分为多种结构类别。一般采用的检索网络无法对多结构文本进行有效的处理,降低了对多模态数据进行检索的效果,存在推理准确度较低的问题。
[0004]因此,如何提高对多模态数据进行处理的效果,提高推理准确度是本领域技术人员关注的重点问题。
技术实现思路
[0005]本申请的目的是提供一种跨 ...
【技术保护点】
【技术特征摘要】
1.一种跨模态互检索神经网络的训练方法,其特征在于,包括:构建文本信息特征编码器和图像序列特征编码器;基于所述文本信息特征编码器和所述图像序列特征编码器进行检索网络构建,得到初始图像文本检索网络;基于每个样本的正样本组和负样本组构造对齐损失函数;其中,所述样本为文本信息特征编码器处理得到的多结构文本编码特征和图像序列特征编码器处理得到的图像序列编码特征;基于所述对齐损失函数和训练数据对所述初始图像文本检索网络进行训练,得到多模态图像文本检索网络。2.根据权利要求1所述的训练方法,其特征在于,所述文本信息特征编码器包括:文本编码层、属性路径建立层、重编码层、重编码特征二次聚合层。3.根据权利要求2所述的训练方法,其特征在于,所述文本编码层,用于对输入的多结构文本数据进行特征编码,得到每个文字的特征向量,通过注意力网络对所述多结构文本数据的所有特征向量进行处理,得到并向属性路径建立层输出所述多结构文本数据的特征编码;所述属性路径建立层,用于基于所有样本的属性信息对所有样本的多结构文本数据的特征编码进行属性连接,得到并向重编码层输出对应样本的多个近邻关系图;所述重编码层,用于基于每个所述近邻关系图将子样本的特征编码聚合到主样本的特征编码中,得到并向重编码特征二次聚合层输出每个近邻关系图的重编码特征;所述重编码特征二次聚合层,用于基于每个重编码特征的权重对所有所述重编码特征进行二次聚合,得到对应样本的文本编码特征。4.根据权利要求2所述的训练方法,其特征在于,所述文本信息特征编码器,还包括:样本遍历单元,用于遍历所有样本,得到每个样本对应的文本编码特征。5.根据权利要求1所述的训练方法,其特征在于,所述图像序列特征编码器,包括特征提取单元、图像序列筛选单元、图像序列整体特征提取单元。6.根据权利要求1所述的训练方法,其特征在于,基于每个样本的正样本组和负样本组构造对齐损失函数,包括:基于每个样本与其他样本之间的属性连接确定对应样本的正样本组和负样本组;基于所述正样本组和所述负样本组构造对齐损失函数。7.根据权利要求1所述的训练方法,其特征在于,基于每个样本的正样本组和负样本组构造对齐损失函数,包括:对每个样本与其他样本之间的属性连接确定对应样本的正样本组和负样本组;基于每个样本的正样本组和负样本组构建文本特征到图像特征的对齐损失函数和图像特征到文本特征的对齐损失函数;其中,任意一个对齐损失函数均包括:对应特征的对齐损失函数、以属性路径约束扩充的正样本组的对比损失函数、以属性路径约束扩充的负样本的对比损失函数;将所述文本特征到图像特征的对齐损失函数和所述图像特征到文本特征的对其损失函数的之和,作为所述对齐损失函数。8.一种跨模态互检索方法,其特征在于,包括:
当输入的是多结构文本数据时,基于多模态图像文本检索网络的文本信息特征编码器对所述文本信息进行特征编码,得到对应的文本编码特征;当输入的是图像数据时,基于多模态图像文本检索网络的图像序列特征编码器对所述图像数据进行特征编码,得到对应的图像编码特征;通过所述多模态图像文本检索网络的输出层对所述文本编码特征或所述图像编码特征进行推理,得到检索结果。9.根据权利要求8所述的跨模态互检索方法,其特征在于,所述文本信息特征编码器包括文本编码层、属性路径建立层、重编码层、重编码特征二次聚合层。10.根据权利要求9所述的跨模态互检索方法,其特征在于,当输入的是多结构文本数据时,基于多模态图像文本检索网络的文本信息特征编码器对所述文本信息进行特征编码,得到对应的文本编码特征,包括:对多结构文本数据进行特征编码,得到每个文字的特征向量,通过注意力网络对所述多结构文本数据的所有特征向量进行处理,得到并向属性路径建立层输出所述多结构文本数据的特征编码;基于所有样本的属性信息对所有样本的多结构文本数据的特征编码进行属性连接,得到并向重编码层输出对应样本的多个近邻关系图;基于每个所述近邻关系图将子样本的特征编码聚合到主样本的特征编码中,得到并向重编码特征二次聚合层输出每个近邻关系图的重编码特征;基于每个重编码特征的权重对所有所述重编码特征进行二次聚合,得到对应样本的文本编码特征。11.根据权利要求8所述的跨模态互检索方法,其特征在于,...
【专利技术属性】
技术研发人员:赵坤,王立,李仁刚,赵雅倩,范宝余,鲁璐,郭振华,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。