一种跨媒体检索困难样本的方法技术

技术编号：25599170 阅读：27 留言：0更新日期：2020-09-11 23:56

本发明专利技术属于自然语言理解技术领域，公开了一种跨媒体检索困难样本的方法。所述方法包括：计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签，基于细粒度度标签计算文本图像对的相似度，实现了困难样本的跨媒体检索。本发明专利技术充分利用文本信息与图像信息相比包含更丰富信息的特点，通过充分挖掘训练数据中的困难样本，并根据困难程度为它们分配细粒度标签，基于细粒度度标签计算文本图像对的相似度，提高了跨媒体检索困难样本的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种跨媒体检索困难样本的方法
本专利技术属于自然语言理解
，具体涉及一种跨媒体检索困难样本的方法。
技术介绍
随着互联网技术和社交媒体的飞速发展，各种媒体形式的数据出现爆炸性增长。互联网用户对信息检索的要求逐渐提高。传统的基于单一媒体的信息检索方法已经无法满足互联网用户的需求，用户更希望通过检索一种模态的媒体信息就可以查询到其它多种媒体类型的结果。为了满足这一需求，跨媒体信息检索技术越来越受到关注。2004年，Hardoon等人首次将典型相关分析CCA(CanonicalCorrelationAnalysis)应用于跨媒体信息检索任务。CCA是一种线性数学模型，主要目的是学习子空间用于最大化两组异构数据的成对相关性。输入图像/文本对之后，CCA通过将图像和文本特征映射到最大相关子空间来度量文本和图像之间的相似性。近年来，随着深度学习的迅猛发展，越来越多的基于深度神经网络的跨媒体信息检索模型被提出。原始数据集是成对的正例，即表示相同语义概念的文本/图像对。为了提供模型训练所需的负例，通常的做法是随机组合不同语义概念的图像和文本，构成负的图像/文本对。基于深度神经网络的模型通常使用神经网络对跨媒体数据进行特征提取，由于其非线性映射的特点，深度学习模型对各种复杂的媒体数据具有良好的表达能力。DCCA(DeepCCA)就是CCA模型的非线性扩展，用于学习两种类型媒体数据之间的复杂非线性变换。它为不同的媒体类型的数据构建了一个具有共享层的网络，其中包含两个子网，通过学习使输出层最大相关。这种构建数据集的方...

【技术保护点】
1.一种跨媒体检索困难样本的方法，其特征在于，包括以下步骤：/n步骤1，计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签；/n步骤1.1，从文本图像对的原始数据集D中随机选取属于同一语义类别的文本和图像构成正样本数据集

【技术特征摘要】
1.一种跨媒体检索困难样本的方法，其特征在于，包括以下步骤：
步骤1，计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签；
步骤1.1，从文本图像对的原始数据集D中随机选取属于同一语义类别的文本和图像构成正样本数据集从D中随机选取属于不同语义类别的文本和图像构成负样本数据集其中，D中每个文本图像对都具有相同的语义类别；N、J、K分别为D、P、E的样本对的数量，K＝J；
步骤1.2，从D中提取与P中对应的文本构成正文本对从D中提取与E中对应的文本构成负文本对计算与的相似度与的相似度
步骤1.3，计算正样本数据集P和负样本数据集E中任意一个文本图像对的细粒度标签：

步骤2，基于细粒度度标签计算文本图像对的相似度；
步骤2.1，利用图卷积模型GCN提取输入文本T的文本特征vT；
步骤2.2，利用卷积神经网络模型...

【专利技术属性】
技术研发人员：王春辉，胡勇，
申请(专利权)人：拾音智能科技有限公司，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人