训练跨模态检索模型的方法以及跨模态检索方法和装置制造方法及图纸

技术编号:29979661 阅读:24 留言:0更新日期:2021-09-08 10:10
本公开公开了一种训练跨模态检索模型的方法,涉及人工智能领域,尤其涉及度量学习、云计算、NLP、大数据、计算机视觉、语音技术和智能搜索领域。具体实现方案为:获取第一模态的样本数据和与第一模态的样本数据对应的第二模态的样本数据,其中,第一模态的样本数据为检索数据,第二模态的样本数据为被检索数据;获取第一模态的样本数据的第一特征表示和第二模态的样本数据的第二特征表示;将第一特征表示映射为K个第一向量,以及将第二特征表示映射为K个第二向量;基于共享字典,获取与K个第一向量对应的K个第一基向量,以及获取与K个第二向量对应的K个第二基向量;以及基于K个第一基向量和K个第二基向量进行匹配,以训练跨模态检索模型。态检索模型。态检索模型。

【技术实现步骤摘要】
训练跨模态检索模型的方法以及跨模态检索方法和装置


[0001]本公开涉及人工智能领域,尤其涉及度量学习、云计算、NLP、大数据、计算机视觉、语音技术和智能搜索领域。尤其涉及一种训练跨模态检索模型的方法以及跨模态检索方法和装置、设备、存储介质等。

技术介绍

[0002]随着基础技术的不断进步,人类信息交互形式不断进化,从声音、文字、图片到视频,形式越来越生动、高效,但也越来越庞大、复杂。其中进行跨模态检索在搜索、推荐、广告等领域都有着广泛应用,也一直是业界研究的热点。

技术实现思路

[0003]本公开提供了一种训练跨模态检索模型的方法以及跨模态检索方法、装置、设备、存储介质以及计算机程序产品。
[0004]根据本公开的一方面,提供了一种训练跨模态检索模型的方法,包括:获取第一模态的样本数据和与所述第一模态的样本数据对应的第二模态的样本数据,其中,所述第一模态的样本数据为检索数据,所述第二模态的样本数据为被检索数据;获取所述第一模态的样本数据的第一特征表示和所述第二模态的样本数据的第二特征表示;将所述第一特征表示映射为K个第一向量,以及将所述第二特征表示映射为K个第二向量;基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量;以及基于所述K个第一基向量和所述K个第二基向量进行匹配,以训练跨模态检索模型。
[0005]根据本公开的另一方面,提供了一种跨模态检索方法,包括:获取第一模态的数据和第二模态的数据,其中,所述第一模态的数据为检索数据,所述第二模态的数据为检索库中的被检索数据,所述第一模态不同于所述第二模态;利用本公开实施例中任一项训练得到的跨模态检索模型,执行以下检索操作:获取所述第一模态的数据的第一特征表示和所述第二模态的数据的第二特征表示;将所述第一特征表示映射为K个第一向量,以及将所述第二特征表示映射为K个第二向量;基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量;以及基于所述K个第一基向量和所述K个第二基向量进行匹配,以得到跨模态检索结果。
[0006]根据本公开的另一方面,提供了一种训练跨模态检索模型的装置,包括:第一获取模块,用于获取第一模态的样本数据和与所述第一模态的样本数据对应的第二模态的样本数据,其中,所述第一模态的样本数据为检索数据,所述第二模态的样本数据为被检索数据;第二获取模块,用于获取所述第一模态的样本数据的第一特征表示和所述第二模态的样本数据的第二特征表示;映射模块,用于将所述第一特征表示映射为K个第一向量,以及将所述第二特征表示映射为K个第二向量;第三获取模块,用于基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量;以
及训练模块,用于基于所述K个第一基向量和所述K个第二基向量进行匹配,以训练跨模态检索模型。
[0007]根据本公开的另一方面,提供了一种跨模态检索装置,包括:第四获取模块,用于获取第一模态的数据和第二模态的数据,其中,所述第一模态的数据为检索数据,所述第二模态的数据为检索库中的被检索数据,所述第一模态不同于所述第二模态;检索模块,用于利用本公开实施例中任一项训练得到的跨模态检索模型,执行以下检索操作:第三获取单元,用于获取所述第一模态的数据的第一特征表示和所述第二模态的数据的第二特征表示;映射单元,用于将所述第一特征表示映射为K个第一向量,以及将所述第二特征表示映射为K个第二向量;第四获取单元,用于基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量;以及检索单元,用于基于所述K个第一基向量和所述K个第二基向量进行匹配,以得到跨模态检索结果。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所述的方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1A示例性示出了适于本公开实施例的晚对齐方式的跨模态检索模型的系统架构;
[0014]图1B示例性示出了适于本公开实施例的早对齐方式的跨模态检索模型的系统架构;
[0015]图1C示例性示出了适于本公开实施例另一跨模态检索模型的系统架构;
[0016]图2示例性示出了根据本公开实施例的训练跨模态检索模型的方法的流程图;
[0017]图3示例性示出了根据本公开实施例的训练跨模态检索模型的原理图;
[0018]图4示例性示出了根据本公开实施例的跨模态检索方法的流程图;
[0019]图5示例性示出了根据本公开实施例的训练跨模态检索模型的装置的框图;
[0020]图6示例性示出了根据本公开实施例的跨模态检索装置的框图;以及
[0021]图7示例性示出了用来实现本公开实施例的电子设备的框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识
到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]应该理解,目前跨模态检索的匹配对齐方式主要有两种:一种晚对齐方式,即各模态数据通过各自的表示层,获得对应的表示层输出后再进行匹配对齐;另一种是早对齐方式,即在表示层中早期就进行匹配对齐,比如各模态数据通过拼接后输入同一表示层,获得对应的表示层输出后直接进行匹配对齐。
[0024]此外,目前跨模态检索的主要技术包括:执行一些大规模对比学习任务,通过对各模态数据分别进行特征表示,然后对输出的各特征表示进行匹配对齐,促使各表示层学习到语义丰富、准确的表征向量,然后基于大规模ann检索技术等,实现大规模跨模态检索。该技术目前采用的主要匹配对齐方式(又称交互对齐方式)是基于cosine或者vlad等方式进行匹配对齐,属于晚对齐方式。
[0025]在实现本公开专利技术构思的过程中,专利技术人发现:上述技术中,如果使用晚对齐方式,则对表示层的监督不够精本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练跨模态检索模型的方法,包括:获取第一模态的样本数据和与所述第一模态的样本数据对应的第二模态的样本数据,其中,所述第一模态的样本数据为检索数据,所述第二模态的样本数据为被检索数据;获取所述第一模态的样本数据的第一特征表示和所述第二模态的样本数据的第二特征表示;将所述第一特征表示映射为K个第一向量,以及将所述第二特征表示映射为K个第二向量;基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量;以及基于所述K个第一基向量和所述K个第二基向量进行匹配,以训练跨模态检索模型。2.根据权利要求1所述的方法,其中,所述基于所述K个第一基向量和所述K个第二基向量进行匹配,以训练跨模态检索模型,包括:将所述K个第一基向量和所述K个第二基向量直接进行匹配,以训练所述跨模态检索模型。3.根据权利要求1所述的方法,其中,所述基于所述K个第一基向量和所述K个第二基向量进行匹配,以训练跨模态检索模型,包括:将所述K个第一基向量融合为对应的第一特征向量;将所述K个第二基向量融合为对应的第二特征向量;以及将所述第一特征向量与所述第二特征向量进行匹配,以训练所述跨模态检索模型。4.根据权利要求1至3中任一项所述的方法,其中:将所述第一模态的样本数据输入所述跨模态检索模型的第一模态表示层,以输出所述第一特征表示;将所述第二模态的样本数据输入所述跨模态检索模型的第二模态表示层,以输出所述第二特征表示;将所述第一特征表示输入所述跨模态检索模型的第一模态映射层,以输出所述K个第一向量;以及将所述第二特征表示输入所述跨模态检索模型的第二模态映射层,以输出所述K个第二向量。5.根据权利要求1至4中任一项所述的方法,其中,所述基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量,包括:将所述K个第一向量中的每个第一向量与所述共享字典中的M个基向量进行相似度匹配,以针对所述每个第一向量获取一个相似度最高的第一基向量;以及将所述K个第二向量中的每个第二向量与所述共享字典中的M个基向量进行相似度匹配,以针对所述每个第二向量获取一个相似度最高的第二基向量。6.根据权利要求1所述的方法,还包括:基于所述K个第一基向量和所述K个第二基向量得到的匹配结果,对所述共享字典中的基向量进行参数优化。7.一种跨模态检索方法,包括:
获取第一模态的数据和第二模态的数据,其中,所述第一模态的数据为检索数据,所述第二模态的数据为检索库中的被检索数据,所述第一模态不同于所述第二模态;利用权利要求1至6中任一项训练得到的跨模态检索模型,执行以下检索操作:获取所述第一模态的数据的第一特征表示和所述第二模态的数据的第二特征表示;将所述第一特征表示映射为K个第一向量,以及将所述第二特征表示映射为K个第二向量;基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量;以及基于所述K个第一基向量和所述K个第二基向量进行匹配,以得到跨模态检索结果。8.一种训练跨模态检索模型的装置,包括:第一获取模块,用于获取第一模态的样本数据和与所述第一模态的样本数据对应的第二模态的样本数据,其中,所述第一模态的样本数据为检索数据,所述第二模态的样本数据为被检索数据;第二获取模块,用于获取所述第一模态的样本数据的第一特征表示和所述第二模态的样本数据的第二特征表示;映射模块,用于将所述第一特征表示映射为K个第一向量,以及将所述第二...

【专利技术属性】
技术研发人员:曲福金志鹏杨羿陈晓冬贺翔
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1