跨媒体检索及模型训练方法、装置、设备、菜谱检索系统制造方法及图纸

技术编号：36507140 阅读：7 留言：0更新日期：2023-02-01 15:33

本申请公开了一种跨媒体检索模型训练方法及装置、跨媒体检索方法及装置、电子设备、可读存储介质、菜谱检索系统，应用于信息检索领域。其中，方法包括对训练样本集的每组训练样本，分别获取当前训练样本中的图像、文本样本的目标特征、图像特征、语义特征及文本特征，并基于文本样本确定目标特征与语义特征之间的关联关系；将该图像特征和文本特征分别输入图文检索模型中的图像编码网络和文本编码网络中，训练图文检索模型；文本编码网络为异质图结构，其异构节点包括目标特征和语义特征，其连接边由目标特征与语义特征之间的关联关系确定。本申请可有效提升图像数据和文本数据之间的互检索精度。间的互检索精度。间的互检索精度。

全部详细技术资料下载

【技术实现步骤摘要】
跨媒体检索及模型训练方法、装置、设备、菜谱检索系统

[0001]本申请涉及信息检索
，特别是涉及一种跨媒体检索模型训练方法及装置、跨媒体检索方法及装置、电子设备、可读存储介质、菜谱检索系统。

技术介绍

[0002]跨媒体检索是指用户给定某类媒体格式的查询信息，可以检索出与之语义相关的其他类型媒体格式的信息，也即基于一种媒体格式的数据，检索到同一应用场景或是同一目标物的某几类媒体格式的数据，媒体格式数据例如可为图像数据、文本数据、音频数据、视频数据等。举例来说，检索固态硬盘的说明信息时，可基于描述该固态硬盘的结构及相关参数的文本数据，检索到采用图片形式给出固态硬盘的内部结构图并附相应文字说明的图像数据。
[0003]相关技术在进行图像文本互检索过程中，通常采用构建特征提取网络实现，也即利用特征提取网络分别提取自然图像和电子文本的高阶特征，使用简单的相似度计算公式计算特征间相似性，选取相似度最高的图像文本对，完成相互检索。神经网络拥有多层网络结构，能够提取出数据的高阶特征，常用于文本和图像处理。但是，由于自然图像和电子文本属于不同模态的数据，数据的异质性使得简单的通过深度神经网络进行特征提取难以准确表达图像与文本的语义特征，尤其是对于涉及到先后顺序或者是具有依赖关系的数据，如基于步骤检索的任务中，从而导致图像与文本之间的检索准确度较低。
[0004]鉴于此，如何提升图像数据和文本数据之间的互检索精度，是所属领域技术人员需要解决的技术问题。

技术实现思路

[0005]本申请提供了一种跨...

【技术保护点】

【技术特征摘要】
1.一种跨媒体检索模型训练方法，其特征在于，包括：对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，并基于所述文本样本确定所述目标特征与所述语义特征之间的关联关系；所述语义特征中包括所述目标特征；将每组训练样本的图像特征输入图文检索模型中的图像编码网络、文本特征输入至所述图文检索模型中的文本编码网络中，训练所述图文检索模型；其中，所述文本样本仅包括一类文本数据；所述文本编码网络为异质图结构，其异构节点包括目标特征和语义特征，其连接边由目标特征与语义特征之间的关联关系确定。2.根据权利要求1所述的跨媒体检索模型训练方法，其特征在于，所述获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，包括：预先利用在图像中标注相应目标特征的目标训练样本集，训练得到目标识别网络；将所述当前组训练样本中的图像样本输入至所述目标识别网络中，得到所述图像样本所包含的各目标特征。3.根据权利要求2所述的跨媒体检索模型训练方法，其特征在于，所述利用在图像中标注相应目标特征的目标训练样本集之后，所述训练得到目标识别网络之前，还包括：预先构建目标识别网络结构，所述目标识别网络结构包括输入层、卷积结构、池化层及分类器；所述卷积结构包括基础运算组件和残差运算组件；所述基础运算组件用于对输入信息依次进行卷积处理、正则化处理、激活函数处理及最大池化处理；所述残差运算组件包括多个相连的残差块，每个残差块均包括多层卷积层，用于对所述基础运算组件的输出特征进行卷积计算；所述池化层，用于将所述卷积结构的输出特征转化为目标特征向量，并输送至所述分类器；所述分类器，用于通过对所述目标特征向量进行计算，并输出所属类别的概率。4.根据权利要求1所述的跨媒体检索模型训练方法，其特征在于，所述获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，包括：预先训练图像编码网络；所述图像编码网络包括特征提取网络和特征融合网络；将所述当前组训练样本的图像样本输入至所述图像编码网络中；所述图像编码网络利用所述特征提取网络提取所述图像样本中每一张步骤图像的子图像特征，并将各子图像特征输入至所述特征融合网络进行特征编码，以得到所述图像样本的图像特征。5.根据权利要求4所述的跨媒体检索模型训练方法，其特征在于，所述特征融合网络为长短期记忆神经网络，所述将各子图像特征输入至所述特征融合网络进行特征编码，包括：调用图像特征编码关系式，对各子图像特征进行处理；所述图像特征编码关系式为：；式中，
ħ
i
为所述长短期记忆神经网络的第i个LSTM单元的输出，LSTM
i
为第i个LSTM单元，
ϕ
()为所述特征提取网络的输出，为所述图像样本的第i张步骤图像，
ħ
i
‑1为所述长短期记忆神经网络的第i
‑
1个LSTM单元的输出，I为所述图像样本所包含的步骤图像的总数。
6.根据权利要求1所述的跨媒体检索模型训练方法，其特征在于，所述获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，包括：预先构建语言表征模型，并利用自然语言文本样本数据集训练所述语言表征模型，将训练好的语言表征模型作为语义特征提取模型；所述语言表征模型包括文本信息输入层、特征提取层和语义特征输出层；所述特征提取层为基于转换器的双向编码器；将所述当前组训练样本中的文本样本输入至所述语义特征提取模型，得到所述文本样本对应的语义特征；将所述当前组训练样本中的图像样本的目标特征输入至所述语义特征提取模型，以将所述目标特征转换为对应的文本词组或文本单词。7.根据权利要求6所述的跨媒体检索模型训练方法，其特征在于，所述基于所述文本样本确定所述目标特征与所述语义特征之间的关联关系，包括：对所述目标特征的每个文本词组或文本单词，依次遍历所述文本样本的每个文本语句；若当前文本语句所包含的目标词组与当前文本词组相同，则所述当前文本语句对应的节点与所述当前文本词组对应的节点具有连接关系；若所述当前文本语句所包含的目标单词与当前文本单词相同，则所述当前文本语句对应的节点与所述当前文本单词对应的节点具有连接关系。8.根据权利要求1所述的跨媒体检索模型训练方法，其特征在于，所述获取当前组训练样本中的图像样本的目标特征、图像特征和文本样本的语义特征、文本特征，包括：对所述文本编码网络的每个异质节点，根据当前异质节点与其余各异质节点之间是否具有连接关系以及各异质节点之间的关联关系，更新所...

【专利技术属性】
技术研发人员：赵雅倩，王立，范宝余，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人