一种跨模态检索模型的训练方法和装置制造方法及图纸

技术编号:37644558 阅读:22 留言:0更新日期:2023-05-25 10:11
本申请提供了一种跨模态检索模型的训练方法及装置,所述方法包括:所述方法包括:通过对既有训练数据集的视频进行挖掘,选取出每类视频片段,其中,所述每类视频片段中仅包括人物,同一类别的物体或画面场景;从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本;根据所述属性描述文本和所述视频片段构建新增训练数据集;将所述新增训练数据集补充至所述既有训练数据集,得到目标训练数据集,并采用所述目标训练数据集对跨模态检索模型进行训练。本申请提升跨模态模型对细粒度属性信息的描述能力与检索效果。性信息的描述能力与检索效果。性信息的描述能力与检索效果。

【技术实现步骤摘要】
一种跨模态检索模型的训练方法和装置


[0001]本申请涉及神经网络
,尤其涉及一种跨模态检索模型的训练方法和装置。

技术介绍

[0002]跨模态检索是对一种模态的查询词,返回与之相关的其他不同模态检索结果的新型检索方法,是跨媒体检索的新兴技术,随着移动设备的智能化、便携化以及在线视频平台的蓬勃发展,大量的互联网用户选择通过视频媒介进行信息的共享和传播。视频文本跨模态检索旨在通过最小化同一视频的视频模态表征和文本模态表征之间的差异,确定不同模态下的表征在特征空间所具有相似性,从而达到跨模态检索的效果。
[0003]现有的跨模态检索模型通常侧重对视频的整体描述,但这样的检索效果往往会忽略细节,缺少对视频细节特征的表达,导致跨模态检索效果较差。例如,搜索“一个穿灰色上衣的男人在和一个抱狗的女人说话”,可能返回一个画面内容为“一个穿灰色上衣的女人在和一个穿白色上衣的男人说话,地上坐着一只狗”的视频,检索结果存在人物的服饰信息错位、人物或动物关系错误的情况。
[0004]针对现有技术中跨模态检索模型的训练,缺乏对视频细节特征描述的问题,目前尚无良好的解决方法。

技术实现思路

[0005]为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种跨模态检索模型的训练方法和装置。
[0006]第一方面,本申请提供了一种跨模态检索模型的训练方法,所述方法包括:
[0007]通过对既有训练数据集的视频进行挖掘,选取出每类视频片段,其中,所述每类视频片段中仅包括人物,同一类别的物体或画面场景;
[0008]从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本;
[0009]根据所述属性描述文本和所述视频片段构建新增训练数据集;
[0010]将所述新增训练数据集补充至所述既有训练数据集,得到目标训练数据集,并采用所述目标训练数据集对跨模态检索模型进行训练。
[0011]可选的,通过对既有训练数据集的视频进行挖掘,选取出每类视频片段包括:
[0012]通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧,其中,所述对象为人物、物体或画面场景;
[0013]采用定位技术确定所述视频帧的时间点位信息;
[0014]根据所述时间点位信息对所述视频进行剪切后,将剪切得到的多个视频帧进行组合,得到视频片段。
[0015]可选的,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:
[0016]对所述既有训练数据集的视频进行人物检测,得到人物检测框;
[0017]通过对所述视频中的人物检测框进行跟踪,得到仅包含所述人物的视频帧。
[0018]可选的,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:
[0019]对所述既有训练数据集的视频进行通用物体检测,得到物体检测框和物体类别标签;
[0020]通过对具有同一物体类别标签的所述物体检测框进行跟踪,得到仅包含同一类物体的视频帧。
[0021]可选的,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:
[0022]对所述既有训练数据集的每个视频帧进行分析,得到包含画面场景的视频帧,其中,所述视频帧携带有场景类别标签。
[0023]可选的,从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本括:
[0024]采用文本分析方案,从所述既有训练数据集的文本中识别出每个属性描述数据;
[0025]从所述属性描述数据中,查找出与所述视频片段匹配的属性描述信息。
[0026]可选的,采用文本分析方案,从所述既有训练数据集的文本中识别出每个属性描述数据包括:
[0027]采用词性分析技术,从所述既有训练数据集的文本中识别出名词和形容词;
[0028]采用句法分析技术,识别具有修饰关系的名词和形容词的词汇组合,以及不具备形容词修饰的单独名词;
[0029]将所述词汇组合或所述单独名词作为一条属性描述数据。
[0030]可选的,若视频片段为人物视频片段,从所述属性描述数据中,查找出与所述视频片段匹配的属性描述信息包括:
[0031]若所述人物视频片段中的帧画面特征与属性描述数据的相似度大于第一相似度阈值,则将所述属性描述数据作为所述人物视频片段的属性描述信息。
[0032]可选的,若视频片段为物体视频片段,从所述属性描述数据中,查找出与所述视频片段匹配的属性描述信息包括:
[0033]若属性描述数据中有名词命中所述物体类别标签,或所述物体视频片段中的帧画面特征与属性描述数据的相似度大于第二相似度阈值,则将所述属性描述数据作为属性描述信息。
[0034]可选的,若视频片段为场景视频片段,从所述属性描述数据中,查找出与所述视频片段匹配的属性描述信息包括:
[0035]若所述属性描述数据中有名词命中所述场景类别标签,或所述场景视频片段中的帧画面特征与属性描述数据的相似度大于第三相似度阈值,则将所述属性描述数据作为属性描述信息。
[0036]第二方面,提供了一种跨模态检索模型的训练装置,所述装置包括:
[0037]选取模块,用于通过对既有训练数据集的视频进行挖掘,选取出每类视频片段,其中,所述每类视频片段中仅包括人物,同一类别的物体或画面场景;
[0038]识别模块,用于从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本;
[0039]构建模块,用于根据所述属性描述文本和所述视频片段构建新增训练数据集;
[0040]补充模块,用于将所述新增训练数据集补充至所述既有训练数据集,得到目标训练数据集,并采用所述目标训练数据集对跨模态检索模型进行训练。
[0041]第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0042]存储器,用于存放计算机程序;
[0043]处理器,用于执行存储器上所存放的程序时,实现任一所述的跨模态检索模型的训练方法步骤。
[0044]第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的跨模态检索模型的训练方法步骤。
[0045]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
[0046]本申请实施例提供的该方法,从训练数据集中,选取出仅包含一类对象的视频片段,并选取出匹配该视频片段的属性描述信息,这样属性描述信息和视频片段是只针对该对象进行描述的数据,能够作为新增训练数据集,将新增训练数据集补充至既有训练数据集,得到目标训练数据集,采用对目标对跨模态检索模型进行训练。这样目标训练数据集既包含对视频的整体描述,又包含对视频的细节特征描述,提升跨模态模型对细粒度属性信息的描述能力与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨模态检索模型的训练方法,其特征在于,所述方法包括:通过对既有训练数据集的视频进行挖掘,选取出每类视频片段,其中,所述每类视频片段中仅包括人物,同一类别的物体或画面场景;从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本;根据所述属性描述文本和所述视频片段构建新增训练数据集;将所述新增训练数据集补充至所述既有训练数据集,得到目标训练数据集,并采用所述目标训练数据集对跨模态检索模型进行训练。2.根据权利要求1所述的方法,其特征在于,通过对既有训练数据集的视频进行挖掘,选取出每类视频片段包括:通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧,其中,所述对象为人物、物体或画面场景;采用定位技术确定所述视频帧的时间点位信息;根据所述时间点位信息对所述视频进行剪切后,将剪切得到的多个视频帧进行组合,得到视频片段。3.根据权利要求2所述的方法,其特征在于,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:对所述既有训练数据集的视频进行人物检测,得到人物检测框;通过对所述视频中的人物检测框进行跟踪,得到仅包含所述人物的视频帧。4.根据权利要求2所述的方法,其特征在于,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:对所述既有训练数据集的视频进行通用物体检测,得到物体检测框和物体类别标签;通过对具有同一物体类别标签的所述物体检测框进行跟踪,得到仅包含同一类物体的视频帧。5.根据权利要求2所述的方法,其特征在于,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:对所述既有训练数据集的每个视频帧进行分析,得到包含画面场景的视频帧,其中,所述视频帧携带有场景类别标签。6.根据权利要求4或5所述的方法,其特征在于,从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本括:采用文本分析方案,从所述既有训练数据集的文本中识别出每个属性描述数据;从所述属性描述数据中,查找出与所述视频片段匹配的属性描述信息。7.根据权利要求6所述的方法,其特征在于,采用文本分析方案,从所述既有训练数据集的文本...

【专利技术属性】
技术研发人员:李冠楠
申请(专利权)人:北京爱奇艺科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1