一种跨模态检索模型的训练方法和装置制造方法及图纸

技术编号:37644558 阅读:23 留言:0更新日期:2023-05-25 10:11
本申请提供了一种跨模态检索模型的训练方法及装置,所述方法包括:所述方法包括:通过对既有训练数据集的视频进行挖掘,选取出每类视频片段,其中,所述每类视频片段中仅包括人物,同一类别的物体或画面场景;从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本;根据所述属性描述文本和所述视频片段构建新增训练数据集;将所述新增训练数据集补充至所述既有训练数据集,得到目标训练数据集,并采用所述目标训练数据集对跨模态检索模型进行训练。本申请提升跨模态模型对细粒度属性信息的描述能力与检索效果。性信息的描述能力与检索效果。性信息的描述能力与检索效果。

【技术实现步骤摘要】
一种跨模态检索模型的训练方法和装置


[0001]本申请涉及神经网络
,尤其涉及一种跨模态检索模型的训练方法和装置。

技术介绍

[0002]跨模态检索是对一种模态的查询词,返回与之相关的其他不同模态检索结果的新型检索方法,是跨媒体检索的新兴技术,随着移动设备的智能化、便携化以及在线视频平台的蓬勃发展,大量的互联网用户选择通过视频媒介进行信息的共享和传播。视频文本跨模态检索旨在通过最小化同一视频的视频模态表征和文本模态表征之间的差异,确定不同模态下的表征在特征空间所具有相似性,从而达到跨模态检索的效果。
[0003]现有的跨模态检索模型通常侧重对视频的整体描述,但这样的检索效果往往会忽略细节,缺少对视频细节特征的表达,导致跨模态检索效果较差。例如,搜索“一个穿灰色上衣的男人在和一个抱狗的女人说话”,可能返回一个画面内容为“一个穿灰色上衣的女人在和一个穿白色上衣的男人说话,地上坐着一只狗”的视频,检索结果存在人物的服饰信息错位、人物或动物关系错误的情况。
[0004]针对现有技术中跨模态检索模型的训练,缺乏对视频细节特征描述的问本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种跨模态检索模型的训练方法,其特征在于,所述方法包括:通过对既有训练数据集的视频进行挖掘,选取出每类视频片段,其中,所述每类视频片段中仅包括人物,同一类别的物体或画面场景;从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本;根据所述属性描述文本和所述视频片段构建新增训练数据集;将所述新增训练数据集补充至所述既有训练数据集,得到目标训练数据集,并采用所述目标训练数据集对跨模态检索模型进行训练。2.根据权利要求1所述的方法,其特征在于,通过对既有训练数据集的视频进行挖掘,选取出每类视频片段包括:通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧,其中,所述对象为人物、物体或画面场景;采用定位技术确定所述视频帧的时间点位信息;根据所述时间点位信息对所述视频进行剪切后,将剪切得到的多个视频帧进行组合,得到视频片段。3.根据权利要求2所述的方法,其特征在于,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:对所述既有训练数据集的视频进行人物检测,得到人物检测框;通过对所述视频中的人物检测框进行跟踪,得到仅包含所述人物的视频帧。4.根据权利要求2所述的方法,其特征在于,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:对所述既有训练数据集的视频进行通用物体检测,得到物体检测框和物体类别标签;通过对具有同一物体类别标签的所述物体检测框进行跟踪,得到仅包含同一类物体的视频帧。5.根据权利要求2所述的方法,其特征在于,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:对所述既有训练数据集的每个视频帧进行分析,得到包含画面场景的视频帧,其中,所述视频帧携带有场景类别标签。6.根据权利要求4或5所述的方法,其特征在于,从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本括:采用文本分析方案,从所述既有训练数据集的文本中识别出每个属性描述数据;从所述属性描述数据中,查找出与所述视频片段匹配的属性描述信息。7.根据权利要求6所述的方法,其特征在于,采用文本分析方案,从所述既有训练数据集的文本...

【专利技术属性】
技术研发人员:李冠楠
申请(专利权)人:北京爱奇艺科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1