一种基于无标记数据迁移的跨模态检索方法及系统技术方案

技术编号:23025342 阅读:31 留言:0更新日期:2020-01-03 17:01
本发明专利技术提出一种基于无标记数据迁移的跨模态检索方法及系统,将经过聚类的无标注信息的单模态图像和文本数据作为迁移源域,有标注信息的跨模态数据集作为目标域,通过迁移学习将源域迁移至目标域的跨模态数据集,扩大训练数据规模,增加跨模态数据的语义信息,学得一个更好的共同空间。本发明专利技术很好地解决了跨模态数据集数据规模小的问题,更加符合实际用户查询不在预定义类别范围内的情况;同时,可以更好地提取不同模态数据的上层语义信息,克服模态之间的异构性差异,增加模态之间的相似性,提高跨模态检索准确率。

A cross modal retrieval method and system based on unmarked data migration

【技术实现步骤摘要】
一种基于无标记数据迁移的跨模态检索方法及系统
本专利技术涉及跨模态数据检索
,具体涉及一种基于无标记数据迁移的跨模态检索方法及系统。
技术介绍
图像、文本等不同模态数据广泛存在于互联网中,且呈现相互融合的趋势。跨模态检索任务尝试打破不同模态数据之间的界限,跨越不同模态数据实现信息检索,即尝试利用某一模态样本检索出与其语义相似的其他模态的样本,在搜索引擎和大数据管理中均有广泛应用。现有跨模态检索方法尝试将不同模态数据的特征表示映射到一个共同空间来学习统一表征,通过计算其对应统一表征之间的距离来度量相似度。然而,由于不同模态数据的异构性,数据分布及表征不一致,难以实现语义关联,跨模态相似性依旧难以度量。虽然互联网中图像、文本数据众多,但是绝大多数的图像和文本数据是未经标注的,难以利用。这些数据含有丰富的语义信息,一方面数据标注需要大量的成本,另一方面,互联网信息时刻更新,每一个新的热点事件的发生都伴随着大量新类别的图像、文本等数据,因此也无法对所有类别的数据进行标注,如何充分利用这些无标注数据对于传统的跨模态检索方法是一个很大的挑战。基于上述原因,在实际场景中,用户提交的查询,往往不一定落在预先定义的类别范围内,训练集和测试集不共享相同的类别的情况时有发生。现有的跨模态检索方法通常只针对训练数据和测试数据类别相同的情况(不可扩展的跨模态检索)。如何更好地构造出一个跨模态共同空间,输入一种模态数据,无论这个数据的类别为已知或未知,都能检索出与其相关的多模态数据在实际应用中有着重要意义。
技术实现思路
为了克服不同模态数据异构性、无标记数据过多、训练数据不足并且不可扩展等问题,本专利技术提出一种基于无标记数据迁移的跨模态检索方法及系统,将经过聚类的无标注信息的单模态图像和文本数据作为迁移源域,有标注信息的跨模态数据集作为目标域,通过迁移学习将源域迁移至目标域的跨模态数据集,扩大训练数据规模,增加跨模态数据的语义信息,学得一个更好的共同空间。本专利技术的技术方案如下:一种基于无标记数据迁移的跨模态检索方法,包括以下步骤:将待检索样本输入训练完成的跨模态数据检索模型,得到其特征表示;对于每个待检索的样本,计算其与所有其他模态样本的欧氏距离,再进行排序,距离小于指定阈值的其他模态样本即为检索结果;其中,所述跨模态数据检索模型的训练过程如下:(1)通过聚类的方法分别为无标记图像、文本设置伪标签;(2)将带有伪标签的无标记图像、文本所含知识分别迁移至跨模态数据集的图像、文本部分,学习跨模态数据集图像和文本的单独表达;(3)将图像和文本的单独表达传入同一个网络,学习图像和文本在同一语义空间下的共同表达。进一步地,上述阈值的确定方法:训练过程中Losscross-modal损失的值为成对图像文本的距离,根据Losscross-modal损失值设置10-20个初始阈值,计算在每个阈值下,检索的mAP值(mAP(meanAveragePrecision),(衡量的是学出的模型在所有查询上的好坏,即所有AP的平均值;AP(AveragePrecision)衡量的是学出来的模型在每个查询上的好坏),使得mAP值最大的阈值为检索的阈值;其中,Losscross-modal为跨模态知识的损失函数:其中,16,17指跨模态数据集图像文本相连的两个全连接层,nl指传入的图像和文本的对数,为第p个图像文本对,使用g()将图像和文本映射为特征向量。一种基于无标记数据迁移的跨模态检索系统,包括:无标记数据聚类模块,数据迁移模块和共同空间学习模块,通过无标记数据聚类模块构造迁移数据集,将该数据集作为数据迁移模块的迁移源域,最后通过共同空间学习模块为数据迁移模块得到的图像、文本学习统一表达,建立跨模态数据的相似性度量基础,从而实现跨模态检索。进一步地,所述无标记数据聚类模块包括图像聚类子模块和文本聚类子模块两部分。该模块将所有无标记图像/文本提取特征后做无监督聚类,得到一系列聚类中心;将相同聚类中心下的图像/文本样本归为一类,将这些样本设置为相同的标签,即完成迁移数据集的构造。进一步地,所述数据迁移模块包括图像迁移子模块和文本迁移子模块,迁移仅在同一子模块内发生。对于每个子模块,迁移源域为相应模态聚类后的无标记数据,目标域为跨模态数据集相应模态的数据。迁移学习通过最小化源域与目标域之间的分布损失实现。跨模态数据集的输入均为成对输入且属于相同的类别,其最后生成的表达应该相近,通过最小化这两个模态数据的成对欧几里得距离,使得具有相同语义信息的图像和文本的距离尽可能近,语义不同的图像和文本距离尽可能远,而与模态无关。进一步地,所述共同空间学习模块将数据迁移模块得到的图像、文本的单独表达传入同一个网络学习不同模态数据的统一表达,这个网络含有多个共享的全连接层,在这个网络中加入跨模态数据集类别的词嵌入向量,增加了不同模态间的语义关联,进一步增强语义信息。本方法的有益效果在于:本方法通过将大量无标记单模态数据集聚类并为它们分配伪标签,将聚类后的无标记数据迁移至跨模态数据集,很好地解决了跨模态数据集数据规模小的问题,更加符合实际用户查询不在预定义类别范围内的情况。通过该方法可以更好地提取不同模态数据的上层语义信息,克服模态之间的异构性差异,增加模态之间的相似性,提高跨模态检索准确率。在公开数据集和实际应用中均取得了不错的效果。附图说明图1为本专利技术的总体流程图;图2为数据迁移流程图;图3为特征提取系统流程图。具体实施方式这里主要介绍基于迁移学习的跨模态检索网络建模,无标记数据聚类,数据迁移,共同表达学习和测试流程。下面将结合附图对本方法做进一步的说明。基于迁移学习的跨模态检索网络建模:对无标记数据进行聚类即给定无标签数据集S,使用图像聚类算法Ci将无标签图像Si聚为ki个类别,使用文本聚类算法Ct对无标签文本St聚为kt个类别,同一聚类中心下的所有图像、文本打上相同的伪标签yi。将聚类后的无标签数据集S使用迁移学习算法T迁移至跨模态数据集D,联合训练生成跨模态数据集图像、文本的单独向量表达Ri,Rt。最后将图片和文本的单独表达Ri,Rt和类别的词嵌入向量V传入同一个全连接网络F中,在同一空间生成图像和文本的共同表达R。其中:无标签数据集S={Si,St}:作为迁移学习的源域,其中Si为无标签图像数据集,St为无标签文本数据集。跨模态数据集D={Di,Dt}:Di,Dt分别为跨模态数据集的图像、文本,跨模态数据集的图像和文本成对输入且相互关联,对于每个图像/文本对,图像和文本来自同一篇文章,或文本是图像的描述。词嵌入向量V:跨模态数据集的所有已知类别通过Word2vec模型转化为300维词向量。文本输入:文本是图像的描述,可以是文章,段落,句子,单词等。使用Bert提取文本向量,维数为768维。图像输入:在该网络中,本文档来自技高网
...

【技术保护点】
1.一种基于无标记数据迁移的跨模态检索方法,包括以下步骤:/n将待检索样本输入训练完成的跨模态数据检索模型,得到其特征表示;/n对于每个待检索的样本,计算其与所有其他模态样本的欧氏距离,再进行排序,距离小于指定阈值的其他模态样本即为检索结果;/n其中,所述跨模态数据检索模型的训练过程如下:/n(1)通过聚类的方法分别为无标记图像、文本设置伪标签;/n(2)将带有伪标签的无标签图像、文本所含知识分别迁移至跨模态数据集的图像、文本部分,生成跨模态数据集图像和文本的单独表达;/n(3)将图像和文本的单独表达传入同一个网络,学习图像和文本在同一语义空间下的共同表达。/n

【技术特征摘要】
1.一种基于无标记数据迁移的跨模态检索方法,包括以下步骤:
将待检索样本输入训练完成的跨模态数据检索模型,得到其特征表示;
对于每个待检索的样本,计算其与所有其他模态样本的欧氏距离,再进行排序,距离小于指定阈值的其他模态样本即为检索结果;
其中,所述跨模态数据检索模型的训练过程如下:
(1)通过聚类的方法分别为无标记图像、文本设置伪标签;
(2)将带有伪标签的无标签图像、文本所含知识分别迁移至跨模态数据集的图像、文本部分,生成跨模态数据集图像和文本的单独表达;
(3)将图像和文本的单独表达传入同一个网络,学习图像和文本在同一语义空间下的共同表达。


2.如权利要求1所述一种基于无标记数据迁移的跨模态检索方法,其特征在于,所述聚类为无监督聚类方法,包括KMeans方法。


3.如权利要求1所述一种基于无标记数据迁移的跨模态检索方法,其特征在于,所述迁移包括单模态知识迁移和跨模态知识共享。


4.如权利要求3所述一种基于无标记数据迁移的跨模态检索方法,其特征在于,迁移损失函数Losstransfer为:
Losstransfer=Lossimg+Losstxt+Losscross-modal,
其中,Lossimg为图像模态的迁移损失函数;Losstxt为文本模态的迁移损失函数;Losscross-modal为跨模态知识的损失函数。


5.如权利要求4所述一种基于无标记数据迁移的跨模态检索方法,其特征在于,图像模态的知识迁移实现方法包括:首先,将源域和目标域的图片传入网络,经过AlexNet网络的前五个卷积层,再加入三个全连接层,源域的损失函数为SoftMax损失;通过最小化源域和目标域的损失函数MMD,从而实现图像模态的知识迁移;
图像模态的迁移损失Lossimg为:



其中,表示由f()将数据映射到再生希尔伯特空间中进行度量的距离;Xi为图像目标域的分布,Yi为源域的分布,k为聚类中心数目,m为源域数据的样本数量,n为目标域数据的...

【专利技术属性】
技术研发人员:朱福庆王雪如张卫博戴娇虎嵩林韩冀中
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1