训练跨模态检索模型的方法、跨模态检索的方法和相关装置制造方法及图纸

技术编号:24708244 阅读:36 留言:0更新日期:2020-07-01 00:00
本申请提供了训练跨模态检索模型的方法、跨模态检索的方法和相关装置。涉及人工智能领域。该方法包括利用无监督学习确定参考模型;基于该参考模型和训练数据进行知识蒸馏,得到训练数据的相似数据;利用训练数据的相似数据和训练数据,可以进行有监督学习,从而得到跨模态检索模型。本申请能够实现在不需要人工标注有监督学习使用的训练数据的标签的情况下,还能够保证训练出的跨模态检索模型的较高的准确率。

【技术实现步骤摘要】
训练跨模态检索模型的方法、跨模态检索的方法和相关装置
本申请涉及人工智能领域,更具体地,涉及训练跨模态检索模型的方法、跨模态检索的方法和相关装置。
技术介绍
早期的检索都是基于文本到文本的检索。例如,利用搜索引擎(例如谷歌(Google)、必应(Bing)等),通过关键词检索网页。但是随着多媒体业务的快速增长,这种基于文本到文本的在同一模态中的检索已经不能满足需求。跨模态检索获得了业界越来越多的关注。文本、图片、视频等每一种多媒体数据都可以看做是一种模态(modal)。利用跨模态检索可以实现利用文本检索图片、利用图片检索文本或者利用文本检索视频等功能。目前,常见的用于训练跨模态检索模型的方法可以分为有监督方法和无监督方法。有监督方法是利用标签挖掘存在于跨模态数据中的相关信息来训练用于进行跨模态检索的模型。利用有监督方法训练跨模态检索模型时使用的训练数据集中的每个训练数据都有对应的标签。训练数据的标签通常是人工标注的。因此,对大规模的数据进行标注需要耗费大量的人力和时间。因此,利用有监督方法训练跨模态检索模型在实际应用中受到了限制。无监督方法训练跨模态检索模型时虽然不需要标注标签,但是利用无监督方法训练出的跨模态检索模型通常不如利用有监督方法训练出的跨模态检索模型的准确率高。
技术实现思路
本申请提供一种训练跨模态检索模型的方法、跨模态检索的方法和相关装置,能够得到准确率较高的跨模态检索模型。第一方面,本申请实施例提供一种训练跨模态检索模型的方法,该方法包括:利用跨模态数据集进行无监督学习,得到参考模型,其中该跨模态数据集包括M组跨模态数据,该M组跨模态数据中的每组跨模态数据包括N个训练数据,该N个训练数据是相关的,该N个训练数据分别属于N个模态,N为大于或等于2的正整数,M为大于或等于1的正整数;根据K个训练数据和该参考模型,确定K个相似数据组,该K个相似数据组与该K训练数据一一对应,该K个相似数据组中的每个相似数据组包括至少一个与对应的训练数据相似的数据,其中该K个训练数据分别属于该M组跨模态数据中的K组跨模态数据且该K个训练数据的模态相同,K为大于或等于2且小于或等于M的正整数;利用该K组跨模态数据和该K个相似数据组对初始跨模态检索模型进行训练,得到跨模态检索模型,其中该K个相似数据组在进行训练时分别作为该K组跨模态数据的相似信息。上述技术方案利用无监督学习确定参考模型;基于该参考模型和训练数据进行知识蒸馏,得到训练数据的相似数据;利用训练数据的相似数据和训练数据,可以进行有监督学习,从而得到跨模态检索模型。本申请能够实现在不需要人工标注有监督学习使用的训练数据的标签的情况下,还能够保证训练出的跨模态检索模型的较高的准确率。结合第一方面,在第一方面的一种可能的实现方式中,该根据K个训练数据和该参考模型,确定K个相似数据组,包括,将该K个训练数据分别输入该参考模型,得到K个特征数据;根据该K个特征数据,确定该K个相似数据组。结合第一方面,在第一方面的一种可能的实现方式中,该根据该K个特征数据,确定该K个相似数据组,包括:根据该K个特征数据中的第i个特征数据和Ki个特征数据,确定Ki个相似度,其中该Ki个特征数据为该K个特征数据中除该第i个特征数据以外的K-1个特征数据,i=1,…,K;根据该Ki个相似度,确定相似数据组Ki,该相似数据组Ki为该K个相似数据组中对应于该第i个特征数据的相似数据组。结合第一方面,在第一方面的一种可能的实现方式中,该根据该K个特征数据中的第i个特征数据和Ki个特征数据,确定Ki个相似度,包括:根据以下公式确定该Ki个相似度中的第j个相似度,j=1,…,K-1:Si,j=(2-|fi-fj|2)/2,其中,Si,j表示该第j个相似度,fi表示该第i个特征数,j表示该Ki个特征数据中的第j个特征数据,符号||2表示求L2范数。结合第一方面,在第一方面的一种可能的实现方式中,该K个训练数据的模态为图像。利用模态为图像的训练数据得到的相似数据组可以使得最终确定的跨模态检索模型能够实现较高的准确率。结合第一方面,在第一方面的一种可能的实现方式中,该根据该Ki个相似度,确定相似数据组Ki,包括:确定该Ki个相似度中最大的L个相似度对应的数据为该相似数据组Ki中的相似数据,L为大于或等于1且小于Ki的正整数;或者,确定该Ki个相似度中大于预设相似度阈值的至少一个相似度对应的数据为该相似数据组Ki中的相似数据。结合第一方面,在第一方面的一种可能的实现方式中,该利用该K组跨模态数据和该K个相似数据组进行训练,得到跨模态检索模型,包括:确定多个参考数据组,该多个参考数据组中的每个参考数据组包括一个训练数据和至少一个相似数据,该每个参考数据组中的训练数据属于该K组跨模态数据中的一组跨模态数据,该每个参考数据组中的至少一个相似数据属于该K个相似数据组中的一个相似数据组,该每个参考数据组中的训练数据所属的跨模态数据与该每个参考数据组中的至少一个相似数据所属的相似数据组对应;利用该多个参考数据组对该初始跨模态检索模型进行训练,得到该跨模态检索模型。第二方面,本申请实施例提供一种跨模态检索方法,该方法包括:获取输入数据;根据跨模态检索模型,确定对应于该输入数据的输出数据,其中该跨模态检索模型是利用如第一方面或第一方面的任一种可能的实现方式得到的;确定该输出数据与检索集合中所有样本的相似性,得到该输出数据与该所有样本的相似度;根据该输出数据与该所有样本的相似度,确定检索结果。第三方面,本申请实施例提供一种训练装置,该训练装置包括用于实现上述第一方面或第一方面的任意一种可能的实现方式的单元。该训练装置可以为训练设备或者用于训练设备的部件(例如芯片、电路等)。第四方面,本申请实施例提供一种跨模态检索装置,该跨模态检索装置包括用于实现上述第二方面所述方法的单元。该跨模态检索装置可以为跨模态检索设备或者用于跨模态检索设备的部件(例如芯片、电路等)。第五方面,本申请实施例提供一种训练设备,包括收发器和处理器。可选地,该训练设备还包括存储器。该处理器用于控制收发器收发信号,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该训练设备执行上述第一方面或第一方面的任一种可能的实现方式的方法。第六方面,本申请实施例提供一种跨模态检索设备,包括收发器和处理器。可选地,该跨模态检索设备还包括存储器。该处理器用于控制收发器收发信号,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该跨模态检索设备执行上述第二方面的方法。第七方面,本申请实施例提供一种数据处理系统,该系统包括上述第五方面的训练设备和第六方面跨模态检索设备。第八方面,本申请实施例提供一种电子装置,该电子装置可以为用于实现上述第一方面或第一方面的任一种可能的实现方式中的训练设备,或者为设置在训练设备中的芯片。该电子装置包括:处理器,与存储器耦合,可用于执行存储器中的指令和/或程序代本文档来自技高网...

【技术保护点】
1.一种训练跨模态检索模型的方法,其特征在于,所述方法包括:/n利用跨模态数据集进行无监督学习,得到参考模型,其中所述跨模态数据集包括M组跨模态数据,所述M组跨模态数据中的每组跨模态数据包括N个训练数据,所述N个训练数据是相关的,所述N个训练数据分别属于N个模态,N为大于或等于2的正整数,M为大于或等于1的正整数;/n根据K个训练数据和所述参考模型,确定K个相似数据组,所述K个相似数据组与所述K个训练数据一一对应,所述K个相似数据组中的每个相似数据组包括至少一个与对应的训练数据相似的数据,其中所述K个训练数据分别属于所述M组跨模态数据中的K组跨模态数据,且所述K个训练数据的模态相同,K为大于或等于2且小于或等于M的正整数;/n利用所述K组跨模态数据和所述K个相似数据组对初始跨模态检索模型进行训练,得到跨模态检索模型,其中所述K个相似数据组在进行训练时分别作为所述K组跨模态数据的相似信息。/n

【技术特征摘要】
1.一种训练跨模态检索模型的方法,其特征在于,所述方法包括:
利用跨模态数据集进行无监督学习,得到参考模型,其中所述跨模态数据集包括M组跨模态数据,所述M组跨模态数据中的每组跨模态数据包括N个训练数据,所述N个训练数据是相关的,所述N个训练数据分别属于N个模态,N为大于或等于2的正整数,M为大于或等于1的正整数;
根据K个训练数据和所述参考模型,确定K个相似数据组,所述K个相似数据组与所述K个训练数据一一对应,所述K个相似数据组中的每个相似数据组包括至少一个与对应的训练数据相似的数据,其中所述K个训练数据分别属于所述M组跨模态数据中的K组跨模态数据,且所述K个训练数据的模态相同,K为大于或等于2且小于或等于M的正整数;
利用所述K组跨模态数据和所述K个相似数据组对初始跨模态检索模型进行训练,得到跨模态检索模型,其中所述K个相似数据组在进行训练时分别作为所述K组跨模态数据的相似信息。


2.如权利要求1所述的方法,其特征在于,所述根据K个训练数据和所述参考模型,确定K个相似数据组,包括,
将所述K个训练数据分别输入所述参考模型,得到K个特征数据;
根据所述K个特征数据,确定所述K个相似数据组。


3.如权利要求2所述的方法,其特征在于,所述根据所述K个特征数据,确定所述K个相似数据组,包括:
根据所述K个特征数据中的第i个特征数据和Ki个特征数据,确定Ki个相似度,其中所述Ki个特征数据为所述K个特征数据中除所述第i个特征数据以外的K-1个特征数据,i=1,…,K;
根据所述Ki个相似度,确定相似数据组Ki,所述相似数据组Ki为所述K个相似数据组中对应于所述第i个特征数据的相似数据组。


4.如权利要求3所述的方法,其特征在于,所述根据所述K个特征数据中的第i个特征数据和Ki个特征数据,确定Ki个相似度,包括:
根据以下公式确定所述Ki个相似度中的第j个相似度,j=1,…,K-1:
Si,j=(2-|fi-fj|2)/2,
其中,Si,j表示所述第j个相似度,fi表示所述第i个特征数,j表示所述Ki个特征数据中的第j个特征数据,符号||2表示求L2范数。


5.如权利要求1至4中任一项所述的方法,其特征在于,所述K个训练数据的模态为图像。


6.如权利要求3或4所述的方法,其特征在于,所述根据所述Ki个相似度,确定相似数据组Ki,包括:
确定所述Ki个相似度中最大的L个相似度对应的数据为所述相似数据组Ki中的相似数据,L为大于或等于1且小于Ki的正整数;或者,
确定所述Ki个相似度中大于预设相似度阈值的至少一个相似度对应的数据为所述相似数据组Ki中的相似数据。


7.如权利要求1至6中任一项所述的方法,其特征在于,所述利用所述K组跨模态数据和所述K个相似数据组进行训练,得到跨模态检索模型,包括:
确定多个参考数据组,所述多个参考数据组中的每个参考数据组包括一个训练数据和至少一个相似数据,所述每个参考数据组中的训练数据属于所述K组跨模态数据中的一组跨模态数据,所述每个参考数据组中的至少一个相似数据属于所述K个相似数据组中的一个相似数据组,所述每个参考数据组中的训练数据所属的跨模态数据与所述每个参考数据组中的至少一个相似数据所属的相似数据组对应;
利用所述多个参考数据组对所述初始跨模态检索模型进行训练,得到所述跨模态检索模型。


8.一种跨模态检索方法,其特征在于,所述方法包括:
获取输入数据;
根据跨模态检索模型,确定对应于所述输入数据的输出数据,其中所述跨模态检索模型是利用如权利要求1至7中任一项所述的方法得到的;
确定所述输出数据与检索集合中所有样本的相似性,得到所述输出数据与所述所有样本的相似度;
根据所述输出数据与所述所有样本的相似度,确定检索结果。


9.一种训练装置,其特征在于,所述训练装置包括:
接收单元,用于获取跨模态数据集;
处理单元,用于利用所述跨模态数据集进行无监督学习,...

【专利技术属性】
技术研发人员:杜泽伟胡恒通谢凌曦田奇
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1