跨模态检索模型处理方法、装置、设备、产品及介质制造方法及图纸

技术编号:37348499 阅读:24 留言:0更新日期:2023-04-22 21:45
本公开提供了一种跨模态检索模型处理方法、装置、设备、产品及介质,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于智能安防、短视频等场景下。具体实现方案为:获取待训练的跨模态检索模型的样本对,所述样本对包括随机确定的两个原始训练样本;对所述样本对中的两个原始训练样本进行样本融合处理,获得融合训练样本;根据所述跨模态检索模型的原始训练样本和所述融合训练样本,对所述跨模态检索模型进行训练,获得目标检索模型;其中,所述目标检索模型用于查询与待查询内容相匹配的目标内容,所述待查询内容和所述目标内容的模态不同。询内容和所述目标内容的模态不同。询内容和所述目标内容的模态不同。

【技术实现步骤摘要】
跨模态检索模型处理方法、装置、设备、产品及介质


[0001]本公开涉及人工智能
,具体为计算机视觉、图像处理、深度学习等
,可应用于智能安防、短视频等场景下,尤其涉及一种跨模态检索模型处理方法、装置、设备、产品及介质。

技术介绍

[0002]随着信息技术的迅速发展,视频的播放需求越来越高。而视频播放程序、内容检索程序、交易程序、安防程序、社交程序等诸多应用程序中,均可能存在利用文字检索视频或者利用图片检索视频的检索需求,这种检索结果的模态和查询的模态不同的检索模型可以称为跨模态检索模型。
[0003]但是,目前的跨模态检索模型训练时,需要使用到大量的训练样本,训练样本一般由视频和与该视频相关的文本信息构成,而跨模态检索模型的训练样本的获取成本较高,导致获得大量训练样本较为困难,跨模态检索模型的训练样本的获取效率较低,进而导致跨模态检索模型的检索精度不高。

技术实现思路

[0004]本公开提供了一种跨模态检索模型处理方法、装置、设备、产品及介质。
[0005]根据本公开的第一方面,提供了一种跨模态检索模本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种跨模态检索模型的训练方法,包括:获取待训练的跨模态检索模型的样本对,所述样本对包括随机确定的两个原始训练样本;对所述样本对中的两个原始训练样本进行样本融合处理,获得融合训练样本;根据所述跨模态检索模型的原始训练样本和所述融合训练样本,对所述跨模态检索模型进行训练,获得目标检索模型;其中,所述目标检索模型用于查询与待查询内容相匹配的目标内容,所述待查询内容和所述目标内容的模态不同。2.根据权利要求1所述的方法,其中,所述训练样本包括视频和所述视频的文本描述信息;所述对所述样本对中的两个原始训练样本进行样本融合处理,获得融合训练样本,包括:对所述样本对中的两个原始训练样本分别对应的视频进行视频融合处理,获得融合视频;对所述样本对中的两个原始训练样本分别对应的文本描述信息进行文本融合处理,获得融合文本;根据所述融合视频和所述融合文本,确定所述融合训练样本。3.根据权利要求2所述的方法,其中,所述对所述样本对中的两个原始训练样本分别对应的视频进行视频融合处理,获得融合视频,包括:按照预设的视频帧采样频率,确定目标采样时刻;从所述样本对的两个原始训练样本分别对应的视频中提取所述目标采样时刻分别对应的视频帧,获得两个原始训练样本分别在所述目标采样时刻对应的视频帧;将在所述目标采样时刻采集的两个原始训练样本分别对应的视频帧进行图像融合,得到所述目标采样时刻对应的目标图像;根据所述目标采样时刻对应的目标图像,生成所述融合视频。4.根据权利要求2或3所述的方法,其中,所述对所述样本对中的两个原始训练样本分别对应的文本描述信息进行文本融合处理,获得融合文本,包括:将所述样本对中的两个原始训练样本分别对应的文本描述信息进行文本拼接,获得所述融合文本。5.根据权利要求1

4任一项所述的方法,其中,所述根据所述跨模态检索模型的原始训练样本和所述融合训练样本,对所述跨模态检索模型进行训练,获得目标检索模型,包括:根据所述跨模态检索模型的原始训练样本和所述融合训练样本,确定参与所述跨模态检索模型训练的目标训练样本,以获得所述目标训练样本中的目标视频和目标视频的文本描述信息;确定所述跨模态检索模型的模型参数;根据所述模型参数对应的所述跨模态检索模型,提取所述目标训练样本中所述目标视频对应的视频语义特征和所述目标视频的文本描述信息对应的文本语义特征;根据所述视频语义特征和所述文本语义特征之间的语义差异,确定所述模型参数对应的跨模态检索模型的目标损失值;若确定所述目标损失值满足损失条件,则确定满足损失条件时的模型参数对应的跨模
态检索模型为所述目标检索模型。6.根据权利要求5所述的方法,其中,所述根据所述视频语义特征和所述文本语义特征之间的语义差异,确定所述模型参数对应的跨模态检索模型的目标损失值,包括:根据语义约束公式,计算所述视频语义特征和所述文本语义特征之间的语义相关信息;根据所述语义相关信息,确定所述模型参数对应的跨模态检索模型的目标损失值。7.根据权利要求6所述的方法,其中,所述根据所述语义相关信息,确定所述跨模态检索模型的目标损失值,包括:将所述语义相关信息输入第一损失函数,计算第一损失值,所述第一损失函数为基于视频检索文本时的损失函数;将所述语义相关信息输入第二损失函数,计算第二损失值,所述第二损失函数为基于文本检索视频时的损失函数;计算所述第一损失值和所述第二损失值之和,获得所述模型参数对应的跨模态检索模型的目标损失值。8.根据权利要求5

7任一项所述的方法,其中,所述根据所述模型参数对应的所述跨模态检索模型,提取所述目标训练样本中所述目标视频对应的视频语义特征和所述目标视频的文本描述信息对应的文本语义特征,包括:确定所述跨模态检索模型在所述模型参数对应的视频语义提取子模型和文本语义提取子模型;利用视频语义提取子模型,提取所述目标训练样本中目标视频的视频语义特征;利用文本语义提取子模型,提取所述目标训练样本中目标视频的文本描述信息的文本语义特征。9.根据权利要求5

8任一项所述的方法,还包括:若确定所述目标损失值不满足损失条件,则更新所述跨模态检索模型的模型参数,返回至所述根据所述模型参数对应的所述跨模态检索模型,提取所述目标训练样本中所述目标视频对应的视频语义特征和所述目标视频的文本描述信息对应的文本语义特征的步骤继续执行。10.一种跨模态检索模型的查询方法,包括:接收用户终端发送的查询内容,所述查询内容属于第一模态;将所述查询内容输入训练获得的目标检索模型,获得与所述查询内容相匹配的目标内容,所述目标检索模型是基于权利要求1

9的跨模态检索模型的训练方法训练获得,所述目标内容属于第二模态;发送所述目标内容至所述用户的所述用户终端,所述目标内容由所述用户终端展示。11.一种跨模态检索模型的训练装置,包括:获取单元,用于获取待训练的跨模态检索模型的样本对,所述样本对包括随机确定的两个原始训练样本;融合单元,用于对所述样本对中的两个原始训练样本进行样本融合处理,获得融合训练样本;训练单元,用于根据所述跨模态检索模型的原始训练样本和所述融合...

【专利技术属性】
技术研发人员:汪浩然李甫丁二锐
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1