【技术实现步骤摘要】
训练跨模态检索模型的方法、跨模态检索的方法和相关装置
本申请涉及人工智能领域,更具体地,涉及训练跨模态检索模型的方法、跨模态检索的方法和相关装置。
技术介绍
早期的检索都是基于文本到文本的检索。例如,利用搜索引擎(例如谷歌(Google)、必应(Bing)等),通过关键词检索网页。但是随着多媒体业务的快速增长,这种基于文本到文本的在同一模态中的检索已经不能满足需求。跨模态检索获得了业界越来越多的关注。文本、图片、视频等每一种多媒体数据都可以看做是一种模态(modal)。利用跨模态检索可以实现利用文本检索图片、利用图片检索文本或者利用文本检索视频等功能。目前,常见的用于训练跨模态检索模型的方法可以分为有监督方法和无监督方法。有监督方法是利用标签挖掘存在于跨模态数据中的相关信息来训练用于进行跨模态检索的模型。利用有监督方法训练跨模态检索模型时使用的训练数据集中的每个训练数据都有对应的标签。训练数据的标签通常是人工标注的。因此,对大规模的数据进行标注需要耗费大量的人力和时间。因此,利用有监督方法训练跨模态检索模型在实际应用中受到了限制。无监督方法训练跨模态检索模型时虽然不需要标注标签,但是利用无监督方法训练出的跨模态检索模型通常不如利用有监督方法训练出的跨模态检索模型的准确率高。
技术实现思路
本申请提供一种训练跨模态检索模型的方法、跨模态检索的方法和相关装置,能够得到准确率较高的跨模态检索模型。第一方面,本申请实施例提供一种训练跨模态检索模型的方法,该方法包括:利用跨模 ...
【技术保护点】
1.一种训练跨模态检索模型的方法,其特征在于,所述方法包括:/n利用跨模态数据集进行无监督学习,得到参考模型,其中所述跨模态数据集包括M组跨模态数据,所述M组跨模态数据中的每组跨模态数据包括N个训练数据,所述N个训练数据是相关的,所述N个训练数据分别属于N个模态,N为大于或等于2的正整数,M为大于或等于1的正整数;/n根据K个训练数据和所述参考模型,确定K个相似数据组,所述K个相似数据组与所述K个训练数据一一对应,所述K个相似数据组中的每个相似数据组包括至少一个与对应的训练数据相似的数据,其中所述K个训练数据分别属于所述M组跨模态数据中的K组跨模态数据,且所述K个训练数据的模态相同,K为大于或等于2且小于或等于M的正整数;/n利用所述K组跨模态数据和所述K个相似数据组对初始跨模态检索模型进行训练,得到跨模态检索模型,其中所述K个相似数据组在进行训练时分别作为所述K组跨模态数据的相似信息。/n
【技术特征摘要】
1.一种训练跨模态检索模型的方法,其特征在于,所述方法包括:
利用跨模态数据集进行无监督学习,得到参考模型,其中所述跨模态数据集包括M组跨模态数据,所述M组跨模态数据中的每组跨模态数据包括N个训练数据,所述N个训练数据是相关的,所述N个训练数据分别属于N个模态,N为大于或等于2的正整数,M为大于或等于1的正整数;
根据K个训练数据和所述参考模型,确定K个相似数据组,所述K个相似数据组与所述K个训练数据一一对应,所述K个相似数据组中的每个相似数据组包括至少一个与对应的训练数据相似的数据,其中所述K个训练数据分别属于所述M组跨模态数据中的K组跨模态数据,且所述K个训练数据的模态相同,K为大于或等于2且小于或等于M的正整数;
利用所述K组跨模态数据和所述K个相似数据组对初始跨模态检索模型进行训练,得到跨模态检索模型,其中所述K个相似数据组在进行训练时分别作为所述K组跨模态数据的相似信息。
2.如权利要求1所述的方法,其特征在于,所述根据K个训练数据和所述参考模型,确定K个相似数据组,包括,
将所述K个训练数据分别输入所述参考模型,得到K个特征数据;
根据所述K个特征数据,确定所述K个相似数据组。
3.如权利要求2所述的方法,其特征在于,所述根据所述K个特征数据,确定所述K个相似数据组,包括:
根据所述K个特征数据中的第i个特征数据和Ki个特征数据,确定Ki个相似度,其中所述Ki个特征数据为所述K个特征数据中除所述第i个特征数据以外的K-1个特征数据,i=1,…,K;
根据所述Ki个相似度,确定相似数据组Ki,所述相似数据组Ki为所述K个相似数据组中对应于所述第i个特征数据的相似数据组。
4.如权利要求3所述的方法,其特征在于,所述根据所述K个特征数据中的第i个特征数据和Ki个特征数据,确定Ki个相似度,包括:
根据以下公式确定所述Ki个相似度中的第j个相似度,j=1,…,K-1:
Si,j=(2-|fi-fj|2)/2,
其中,Si,j表示所述第j个相似度,fi表示所述第i个特征数,j表示所述Ki个特征数据中的第j个特征数据,符号||2表示求L2范数。
5.如权利要求1至4中任一项所述的方法,其特征在于,所述K个训练数据的模态为图像。
6.如权利要求3或4所述的方法,其特征在于,所述根据所述Ki个相似度,确定相似数据组Ki,包括:
确定所述Ki个相似度中最大的L个相似度对应的数据为所述相似数据组Ki中的相似数据,L为大于或等于1且小于Ki的正整数;或者,
确定所述Ki个相似度中大于预设相似度阈值的至少一个相似度对应的数据为所述相似数据组Ki中的相似数据。
7.如权利要求1至6中任一项所述的方法,其特征在于,所述利用所述K组跨模态数据和所述K个相似数据组进行训练,得到跨模态检索模型,包括:
确定多个参考数据组,所述多个参考数据组中的每个参考数据组包括一个训练数据和至少一个相似数据,所述每个参考数据组中的训练数据属于所述K组跨模态数据中的一组跨模态数据,所述每个参考数据组中的至少一个相似数据属于所述K个相似数据组中的一个相似数据组,所述每个参考数据组中的训练数据所属的跨模态数据与所述每个参考数据组中的至少一个相似数据所属的相似数据组对应;
利用所述多个参考数据组对所述初始跨模态检索模型进行训练,得到所述跨模态检索模型。
8.一种跨模态检索方法,其特征在于,所述方法包括:
获取输入数据;
根据跨模态检索模型,确定对应于所述输入数据的输出数据,其中所述跨模态检索模型是利用如权利要求1至7中任一项所述的方法得到的;
确定所述输出数据与检索集合中所有样本的相似性,得到所述输出数据与所述所有样本的相似度;
根据所述输出数据与所述所有样本的相似度,确定检索结果。
9.一种训练装置,其特征在于,所述训练装置包括:
接收单元,用于获取跨模态数据集;
处理单元,用于利用所述跨模态数据集进行无监督学习,...
【专利技术属性】
技术研发人员:杜泽伟,胡恒通,谢凌曦,田奇,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。