【技术实现步骤摘要】
训练跨模态检索模型的方法以及跨模态检索方法和装置
[0001]本公开涉及人工智能领域,尤其涉及度量学习、云计算、NLP、大数据、计算机视觉、语音技术和智能搜索领域。尤其涉及一种训练跨模态检索模型的方法以及跨模态检索方法和装置、设备、存储介质等。
技术介绍
[0002]随着基础技术的不断进步,人类信息交互形式不断进化,从声音、文字、图片到视频,形式越来越生动、高效,但也越来越庞大、复杂。其中进行跨模态检索在搜索、推荐、广告等领域都有着广泛应用,也一直是业界研究的热点。
技术实现思路
[0003]本公开提供了一种训练跨模态检索模型的方法以及跨模态检索方法、装置、设备、存储介质以及计算机程序产品。
[0004]根据本公开的一方面,提供了一种训练跨模态检索模型的方法,包括:获取第一模态的样本数据和与所述第一模态的样本数据对应的第二模态的样本数据,其中,所述第一模态的样本数据为检索数据,所述第二模态的样本数据为被检索数据;获取所述第一模态的样本数据的第一特征表示和所述第二模态的样本数据的第二特征表示;将所述第一特征表示映射为K个第一向量,以及将所述第二特征表示映射为K个第二向量;基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量;以及基于所述K个第一基向量和所述K个第二基向量进行匹配,以训练跨模态检索模型。
[0005]根据本公开的另一方面,提供了一种跨模态检索方法,包括:获取第一模态的数据和第二模态的数据,其中,所述第一模态的数据为检索数据 ...
【技术保护点】
【技术特征摘要】
1.一种训练跨模态检索模型的方法,包括:获取第一模态的样本数据和与所述第一模态的样本数据对应的第二模态的样本数据,其中,所述第一模态的样本数据为检索数据,所述第二模态的样本数据为被检索数据;获取所述第一模态的样本数据的第一特征表示和所述第二模态的样本数据的第二特征表示;将所述第一特征表示映射为K个第一向量,以及将所述第二特征表示映射为K个第二向量;基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量;以及基于所述K个第一基向量和所述K个第二基向量进行匹配,以训练跨模态检索模型。2.根据权利要求1所述的方法,其中,所述基于所述K个第一基向量和所述K个第二基向量进行匹配,以训练跨模态检索模型,包括:将所述K个第一基向量和所述K个第二基向量直接进行匹配,以训练所述跨模态检索模型。3.根据权利要求1所述的方法,其中,所述基于所述K个第一基向量和所述K个第二基向量进行匹配,以训练跨模态检索模型,包括:将所述K个第一基向量融合为对应的第一特征向量;将所述K个第二基向量融合为对应的第二特征向量;以及将所述第一特征向量与所述第二特征向量进行匹配,以训练所述跨模态检索模型。4.根据权利要求1至3中任一项所述的方法,其中:将所述第一模态的样本数据输入所述跨模态检索模型的第一模态表示层,以输出所述第一特征表示;将所述第二模态的样本数据输入所述跨模态检索模型的第二模态表示层,以输出所述第二特征表示;将所述第一特征表示输入所述跨模态检索模型的第一模态映射层,以输出所述K个第一向量;以及将所述第二特征表示输入所述跨模态检索模型的第二模态映射层,以输出所述K个第二向量。5.根据权利要求1至4中任一项所述的方法,其中,所述基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量,包括:将所述K个第一向量中的每个第一向量与所述共享字典中的M个基向量进行相似度匹配,以针对所述每个第一向量获取一个相似度最高的第一基向量;以及将所述K个第二向量中的每个第二向量与所述共享字典中的M个基向量进行相似度匹配,以针对所述每个第二向量获取一个相似度最高的第二基向量。6.根据权利要求1所述的方法,还包括:基于所述K个第一基向量和所述K个第二基向量得到的匹配结果,对所述共享字典中的基向量进行参数优化。7.一种跨模态检索方法,包括:
获取第一模态的数据和第二模态的数据,其中,所述第一模态的数据为检索数据,所述第二模态的数据为检索库中的被检索数据,所述第一模态不同于所述第二模态;利用权利要求1至6中任一项训练得到的跨模态检索模型,执行以下检索操作:获取所述第一模态的数据的第一特征表示和所述第二模态的数据的第二特征表示;将所述第一特征表示映射为K个第一向量,以及将所述第二特征表示映射为K个第二向量;基于共享字典,获取与所述K个第一向量对应的K个第一基向量,以及获取与所述K个第二向量对应的K个第二基向量;以及基于所述K个第一基向量和所述K个第二基向量进行匹配,以得到跨模态检索结果。8.一种训练跨模态检索模型的装置,包括:第一获取模块,用于获取第一模态的样本数据和与所述第一模态的样本数据对应的第二模态的样本数据,其中,所述第一模态的样本数据为检索数据,所述第二模态的样本数据为被检索数据;第二获取模块,用于获取所述第一模态的样本数据的第一特征表示和所述第二模态的样本数据的第二特征表示;映射模块,用于将所述第一特征表示映射为K个第一向量,以及将所述第二...
【专利技术属性】
技术研发人员:曲福,金志鹏,杨羿,陈晓冬,贺翔,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。