一种跨媒体检索困难样本的方法技术

技术编号:25599170 阅读:27 留言:0更新日期:2020-09-11 23:56
本发明专利技术属于自然语言理解技术领域,公开了一种跨媒体检索困难样本的方法。所述方法包括:计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签,基于细粒度度标签计算文本图像对的相似度,实现了困难样本的跨媒体检索。本发明专利技术充分利用文本信息与图像信息相比包含更丰富信息的特点,通过充分挖掘训练数据中的困难样本,并根据困难程度为它们分配细粒度标签,基于细粒度度标签计算文本图像对的相似度,提高了跨媒体检索困难样本的准确率。

【技术实现步骤摘要】
一种跨媒体检索困难样本的方法
本专利技术属于自然语言理解
,具体涉及一种跨媒体检索困难样本的方法。
技术介绍
随着互联网技术和社交媒体的飞速发展,各种媒体形式的数据出现爆炸性增长。互联网用户对信息检索的要求逐渐提高。传统的基于单一媒体的信息检索方法已经无法满足互联网用户的需求,用户更希望通过检索一种模态的媒体信息就可以查询到其它多种媒体类型的结果。为了满足这一需求,跨媒体信息检索技术越来越受到关注。2004年,Hardoon等人首次将典型相关分析CCA(CanonicalCorrelationAnalysis)应用于跨媒体信息检索任务。CCA是一种线性数学模型,主要目的是学习子空间用于最大化两组异构数据的成对相关性。输入图像/文本对之后,CCA通过将图像和文本特征映射到最大相关子空间来度量文本和图像之间的相似性。近年来,随着深度学习的迅猛发展,越来越多的基于深度神经网络的跨媒体信息检索模型被提出。原始数据集是成对的正例,即表示相同语义概念的文本/图像对。为了提供模型训练所需的负例,通常的做法是随机组合不同语义概念的图像和文本,构成负的图像/文本对。基于深度神经网络的模型通常使用神经网络对跨媒体数据进行特征提取,由于其非线性映射的特点,深度学习模型对各种复杂的媒体数据具有良好的表达能力。DCCA(DeepCCA)就是CCA模型的非线性扩展,用于学习两种类型媒体数据之间的复杂非线性变换。它为不同的媒体类型的数据构建了一个具有共享层的网络,其中包含两个子网,通过学习使输出层最大相关。这种构建数据集的方法为模型的训练带来了不可避免的问题:随机组合的负样本中存在大量很容易被模型准确检测出的简单样本,这类样本对模型的训练贡献甚微。然而数据集中总是存在一些容易被错误分类的正样本和负样本,这类样本被称为困难样本。在模型训练过程中,常常因为受到大量简单样本的影响而忽略少量容易被错误分类的困难样本的影响,导致模型不能收敛到更好的结果,陷入局部最优。
技术实现思路
为了解决现有技术中存在的上述问题,本专利技术提出一种跨媒体检索困难样本的方法。为实现上述目的,本专利技术采用如下技术方案:一种跨媒体检索困难样本的方法,包括以下步骤:步骤1,计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签;步骤1.1,从文本图像对的原始数据集D中随机选取属于同一语义类别的文本和图像构成正样本数据集从D中随机选取属于不同语义类别的文本和图像构成负样本数据集其中,D中每个文本图像对都具有相同的语义类别;N、J、K分别为D、P、E的样本对的数量,K=J;步骤1.2,从D中提取与P中对应的文本构成正文本对从D中提取与E中对应的文本构成负文本对计算与的相似度与的相似度步骤1.3,计算正样本数据集P和负样本数据集E中任意一个文本图像对的细粒度标签:步骤2,基于细粒度度标签计算文本图像对的相似度;步骤2.1,利用图卷积模型GCN(GraphConvolutionalNetwork)提取输入文本T的文本特征vT;步骤2.2,利用卷积神经网络模型CCN(ConvolutionalNeuralNetworks)提取输入图像I的图像特征vI;步骤2.3,基于vT、vI构建正样本数据集和负样本数据集Q1、Q2分别为正样本数据集、负样本数据集的样本对的数量;分别计算正样本数据集、负样本数据集中文本图像对的相似度并利用细粒度标签进行修正:式中,为修正后的相似度,β为设定的细粒度标签对相似度的影响系数,按(1)式计算,按(2)式计算。与现有技术相比,本专利技术具有以下有益效果:本专利技术通过计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签,基于细粒度度标签计算文本图像对的相似度,实现了困难样本的跨媒体检索。本专利技术充分利用文本信息与图像信息相比包含更丰富信息的特点,通过充分挖掘训练数据中的困难样本,并根据困难程度为它们分配细粒度标签,基于细粒度度标签计算文本图像对的相似度,提高了跨媒体检索困难样本的准确率。附图说明图1为文本图像对相似度分布曲线示意图,横轴为相似度,纵轴为样本对数。具体实施方式下面结合附图对本专利技术作进一步详细说明。本专利技术实施例一种跨媒体检索困难样本的方法,所述方法包括以下步骤:S101、计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签;S1011、从文本图像对的原始数据集D中随机选取属于同一语义类别的文本和图像构成正样本数据集从D中随机选取属于不同语义类别的文本和图像构成负样本数据集其中,D中每个文本图像对都具有相同的语义类别;N、J、K分别为D、P、E的样本对的数量,K=J;S1012、从D中提取与P中对应的文本构成正文本对从D中提取与E中对应的文本构成负文本对计算与的相似度与的相似度S1013、计算正样本数据集P和负样本数据集E中任意一个文本图像对的细粒度标签:S102、基于细粒度度标签计算文本图像对的相似度;S1021、利用图卷积模型GCN提取输入文本T的文本特征vT;S1022、利用卷积神经网络模型CCN提取输入图像I的图像特征vI;S1023、基于vT、vI构建正样本数据集和负样本数据集Q1、Q2分别为正样本数据集、负样本数据集的样本对的数量;分别计算正样本数据集、负样本数据集中每个文本图像对的相似度并利用细粒度标签进行修正:式中,为修正后的相似度,β为设定的细粒度标签对相似度的影响系数,按(1)式计算,按(2)式计算。本实施例的实现分为两个阶段。第一阶段是计算文本相似度的细粒度标签,由步骤S101实现;第二阶段是基于细粒度标签实现跨模态信息检索,由步骤S102实现。第一阶段的主要目标是测量文本图像对中的文本与图像的原始文本描述之间的相关性。与图像相比,文本描述通常包含更丰富和更具体的信息。因此,本实施例采用图像的原始文本描述表示图像语义,通过计算原始文本与文本图像对中的文本之间的相似度判断样本的困难程度。对于正样本,相似度越小,样本难度越大;对于负样本,相似度越大,样本难度越大。步骤S101具体包括S1011~S1013。步骤S1011基于原始数据集D构建正样本数据集P和负样本数据集E。步骤S1012基于D、P、E提取正文本对和负文本对,并分别计算每个正文本对和负文本对的相似度。相似度采用余弦相似度。步骤S1013根据每个正文本对和负文本对的相似度,根据公式(1)、(2)计算正样本数据集P和负样本数据集E中任意一个文本图像对的细粒度标签。根据公式(1)、(2)可知,细粒度标签的最大值为1,最小值为0。步骤S102具体包括S1021~S1023。步骤S1021利用图卷积模型GCN提取输入文本T的文本特征。GCN将卷积操作扩展到了图结构本文档来自技高网
...

【技术保护点】
1.一种跨媒体检索困难样本的方法,其特征在于,包括以下步骤:/n步骤1,计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签;/n步骤1.1,从文本图像对的原始数据集D中随机选取属于同一语义类别的文本和图像构成正样本数据集

【技术特征摘要】
1.一种跨媒体检索困难样本的方法,其特征在于,包括以下步骤:
步骤1,计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签;
步骤1.1,从文本图像对的原始数据集D中随机选取属于同一语义类别的文本和图像构成正样本数据集从D中随机选取属于不同语义类别的文本和图像构成负样本数据集其中,D中每个文本图像对都具有相同的语义类别;N、J、K分别为D、P、E的样本对的数量,K=J;
步骤1.2,从D中提取与P中对应的文本构成正文本对从D中提取与E中对应的文本构成负文本对计算与的相似度与的相似度
步骤1.3,计算正样本数据集P和负样本数据集E中任意一个文本图像对的细粒度标签:






步骤2,基于细粒度度标签计算文本图像对的相似度;
步骤2.1,利用图卷积模型GCN提取输入文本T的文本特征vT;
步骤2.2,利用卷积神经网络模型...

【专利技术属性】
技术研发人员:王春辉胡勇
申请(专利权)人:拾音智能科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1