一种基于无标记数据迁移的跨模态检索方法及系统技术方案

技术编号：23025342 阅读：31 留言：0更新日期：2020-01-03 17:01

本发明专利技术提出一种基于无标记数据迁移的跨模态检索方法及系统，将经过聚类的无标注信息的单模态图像和文本数据作为迁移源域，有标注信息的跨模态数据集作为目标域，通过迁移学习将源域迁移至目标域的跨模态数据集，扩大训练数据规模，增加跨模态数据的语义信息，学得一个更好的共同空间。本发明专利技术很好地解决了跨模态数据集数据规模小的问题，更加符合实际用户查询不在预定义类别范围内的情况；同时，可以更好地提取不同模态数据的上层语义信息，克服模态之间的异构性差异，增加模态之间的相似性，提高跨模态检索准确率。

A cross modal retrieval method and system based on unmarked data migration

全部详细技术资料下载

【技术实现步骤摘要】
一种基于无标记数据迁移的跨模态检索方法及系统
本专利技术涉及跨模态数据检索
，具体涉及一种基于无标记数据迁移的跨模态检索方法及系统。
技术介绍
图像、文本等不同模态数据广泛存在于互联网中，且呈现相互融合的趋势。跨模态检索任务尝试打破不同模态数据之间的界限，跨越不同模态数据实现信息检索，即尝试利用某一模态样本检索出与其语义相似的其他模态的样本，在搜索引擎和大数据管理中均有广泛应用。现有跨模态检索方法尝试将不同模态数据的特征表示映射到一个共同空间来学习统一表征，通过计算其对应统一表征之间的距离来度量相似度。然而，由于不同模态数据的异构性，数据分布及表征不一致，难以实现语义关联，跨模态相似性依旧难以度量。虽然互联网中图像、文本数据众多，但是绝大多数的图像和文本数据是未经标注的，难以利用。这些数据含有丰富的语义信息，一方面数据标注需要大量的成本，另一方面，互联网信息时刻更新，每一个新的热点事件的发生都伴随着大量新类别的图像、文本等数据，因此也无法对所有类别的数据进行标注，如何充分利用这些无标注数据对于传统的跨模态检索方法是一个很大的挑战。基于上述原因，在实际场景中，用户提交的查询，往往不一定落在预先定义的类别范围内，训练集和测试集不共享相同的类别的情况时有发生。现有的跨模态检索方法通常只针对训练数据和测试数据类别相同的情况(不可扩展的跨模态检索)。如何更好地构造出一个跨模态共同空间，输入一种模态数据，无论这个数据的类别为已知或未知，都能检索出与其相关的多模态数据在实际应用中有着重要意义。...

【技术保护点】
1.一种基于无标记数据迁移的跨模态检索方法，包括以下步骤：/n将待检索样本输入训练完成的跨模态数据检索模型，得到其特征表示；/n对于每个待检索的样本，计算其与所有其他模态样本的欧氏距离，再进行排序，距离小于指定阈值的其他模态样本即为检索结果；/n其中，所述跨模态数据检索模型的训练过程如下：/n(1)通过聚类的方法分别为无标记图像、文本设置伪标签；/n(2)将带有伪标签的无标签图像、文本所含知识分别迁移至跨模态数据集的图像、文本部分，生成跨模态数据集图像和文本的单独表达；/n(3)将图像和文本的单独表达传入同一个网络，学习图像和文本在同一语义空间下的共同表达。/n

【技术特征摘要】
1.一种基于无标记数据迁移的跨模态检索方法，包括以下步骤：
将待检索样本输入训练完成的跨模态数据检索模型，得到其特征表示；
对于每个待检索的样本，计算其与所有其他模态样本的欧氏距离，再进行排序，距离小于指定阈值的其他模态样本即为检索结果；
其中，所述跨模态数据检索模型的训练过程如下：
(1)通过聚类的方法分别为无标记图像、文本设置伪标签；
(2)将带有伪标签的无标签图像、文本所含知识分别迁移至跨模态数据集的图像、文本部分，生成跨模态数据集图像和文本的单独表达；
(3)将图像和文本的单独表达传入同一个网络，学习图像和文本在同一语义空间下的共同表达。

2.如权利要求1所述一种基于无标记数据迁移的跨模态检索方法，其特征在于，所述聚类为无监督聚类方法，包括KMeans方法。

3.如权利要求1所述一种基于无标记数据迁移的跨模态检索方法，其特征在于，所述迁移包括单模态知识迁移和跨模态知识共享。

4.如权利要求3所述一种基于无标记数据迁移的跨模态检索方法，其特征在于，迁移损失函数Losstransfer为：
Losstransfer＝Lossimg+Losstxt+Losscross-modal，
其中，Lossimg为图像模态的迁移损失函数；Losstxt为文本模态的迁移损失函数；Losscross-modal为跨模态知识的损失函数。

5.如权利要求4所述一种基于无标记数据迁移的跨模态检索方法，其特征在于，图像模态的知识迁移实现方法包括：首先，将源域和目标域的图片传入网络，经过AlexNet网络的前五个卷积层，再加入三个全连接层，源域的损失函数为SoftMax损失；通过最小化源域和目标域的损失函数MMD，从而实现图像模态的知识迁移；
图像模态的迁移损失Lossimg为：

其中，表示由f()将数据映射到再生希尔伯特空间中进行度量的距离；Xi为图像目标域的分布，Yi为源域的分布，k为聚类中心数目，m为源域数据的样本数量，n为目标域数据的...

【专利技术属性】
技术研发人员：朱福庆，王雪如，张卫博，戴娇，虎嵩林，韩冀中，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人