System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视频查询方法、装置及电子设备制造方法及图纸_技高网

视频查询方法、装置及电子设备制造方法及图纸

技术编号:41142006 阅读:17 留言:0更新日期:2024-04-30 18:11
本申请实施例提供了一种视频查询方法、装置、电子设备及存储介质,涉及视频处理技术领域,其中,所述方法包括:获取待分析的视频数据、视频数据的类型文本;对视频数据进行属性识别,确定视频数据的属性文本;基于视频数据、属性文本和类型文本,提取视频数据的第一特征、属性文本的第二特征和类型文本的第三特征;基于第一特征、第二特征和第三特征,训练跨模态查询模型,以依据训练好的跨模态查询模型进行视频查询。本申请提供的视频查询方法能够有效地提升模型的训练效果。

【技术实现步骤摘要】

本申请涉及视频处理,具体而言,本申请涉及一种视频查询方法、装置及电子设备


技术介绍

1、现有的视频查询方式通常是根据跨模态查询模型进行查询,比如,用户可以输入查询文本,通过跨模态查询模型来提取查询文本的文本特征,并进行跨模态匹配,确定对应的视频特征,从而筛选到符合要求的视频。

2、但是,现有的跨模态查询模型只能利用预先标注好文本与视频的对应关系的数据来进行模型训练,对模型的训练效果差。


技术实现思路

1、本申请各实施例提供了一种视频查询方法、装置及网络设备,可以提升模型的训练效果。

2、所述技术方案如下:

3、第一方面,本申请提供了一种视频查询方法,所述方法包括:获取待分析的视频数据、视频数据的类型文本;对视频数据进行属性识别,确定视频数据的属性文本;基于视频数据、属性文本和类型文本,提取视频数据的第一特征、属性文本的第二特征和类型文本的第三特征;基于第一特征、第二特征和第三特征,训练跨模态查询模型,以依据训练好的跨模态查询模型进行视频查询。

4、优选的,所述基于第一特征、第二特征和第三特征,训练跨模态查询模型,包括:基于跨模态查询模型,确定第一特征与第三特征的第一相似度,并确定第二特征与第三特征的第二相似度,以确定融合相似度,以确定查询结果;依据查询结果和视频数据的标注数据,对跨模态查询模型的参数进行调整以完成模型训练。

5、优选的,提取视频数据的第一特征的步骤,包括:获取视频数据的视频帧的帧特征;依据视频帧的帧特征和视频数据对应的类型文本,确定各视频帧的时间显著性;按照时间显著性,确定相应的权重,以融合视频帧的帧特征,得到视频数据的第一特征。

6、优选的,所述依据视频帧的帧特征和视频数据对应的类型文本,确定各视频帧的时间显著性,包括:将类型文本拆解为词文本,并提取词文本的词特征;依据视频帧的帧特征和词文本的词特征,确定各视频帧的时间显著性。

7、优选的,所述对视频数据进行属性识别,确定视频数据的属性文本,包括:将视频数据输入到预训练的视觉编码器中,以获取视频数据各视频帧的帧特征,以确定视频特征;将各类型文本输入到预训练的文本编码器中,获取各类型文本的文本特征;将视频特征和文本特征进行匹配,以从类型文本中筛选出目标类型文本,作为视频数据的属性文本。

8、优选的,所述获取视频数据各视频帧的帧特征,以确定视频特征,包括:获取视频数据各视频帧的帧特征,并进行平均池化集成,确定视频特征。

9、优选的,视频数据的属性文本包括多个类型文本;提取视频数据的属性文本的第二特征的步骤,包括:将属性文本对应的多个类型文本进行串联,并将串联后的多个类型文本输入到文本编码器中,提取属性文本的第二特征。

10、第二方面,本申请提供了一种视频查询方法,所述方法包括:获取文本类型的视频查询信息;将视频查询信息输入到训练好的跨模态查询模型中,确定目标视频数据;训练好的跨模态查询模型用于:对视频查询信息进行文本特征识别,确定查询文本向量;基于查询文本向量进行跨模态匹配,确定视频特征向量,以确定视频特征向量对应的目标视频数据;所述训练好的跨模态查询模型是基于视频数据、视频数据的类型文本、视频数据的属性文本进行训练后得到;反馈目标视频数据作为查询结果。

11、第三方面,本申请提供了一种视频查询装置,所述装置包括:视频数据获取模块,用于获取待分析的视频数据、视频数据的类型文本;属性文本获取模块,用于对视频数据进行属性识别,确定视频数据的属性文本;数据特征提取模块,用于基于视频数据、属性文本和类型文本,提取视频数据的第一特征、属性文本的第二特征和类型文本的第三特征;查询模型训练模块,用于基于第一特征、第二特征和第三特征,训练跨模态查询模型,以依据训练好的跨模态查询模型进行视频查询。

12、根据本申请的一个方面,一种电子设备,包括至少一个处理器以及至少一个存储器,其中,所述存储器上存储有计算机可读指令;所述计算机可读指令被一个或多个所述处理器执行,使得电子设备实现如上所述的方法。

13、根据本申请的一个方面,一种存储介质,其上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行,以实现如上所述的方法。

14、根据本申请的一个方面,一种计算机程序产品,计算机程序产品包括计算机可读指令,计算机可读指令存储在存储介质中,电子设备的一个或多个处理器从存储介质读取计算机可读指令,加载并执行该计算机可读指令,使得电子设备实现如上所述的方法。

15、本申请提供的技术方案带来的有益效果是:

16、本申请的方案可以应用在跨模态查询模型的训练场景中,现有的跨模态查询模型的训练通常是利用预先标注好的文本与视频的数据对(之间的映射关系)来进行特征提取、特征映射、基于标注进行模型调整,从而完成跨模态查询模型的训练。但是采用该方案,只关注了文本特征(如视频数据的类型文本的特征)和视频特征之间的对应关系,对模型的训练效果差,比如,在模型训练过程中会导致具有对应关系的文本特征和视频特征之间的相似度较低,导致训练效果差。而本申请的方案可以对视频数据进行属性分析,确定视频数据的属性文本,进而基于属性文本和视频数据来综合分析与类型文本的对应关系,从而完成模型的训练。本方案在视频数据中融入了对应的属性文本作为额外的特征,提升了对模型的训练效果。比如,可以利用属性文本与类型文本之间的特征相似性来增强视频数据与类型文本之间的特征相似性,以建立视频数据与类型文本之间的对应关系,更好的对模型进行训练。

17、具体来说,本申请可以获取待分析的视频数据、视频数据对应的类型文本;并对视频数据进行属性识别,确定视频数据对应的属性文本。确定视频数据、类型文本和属性文本之后,可以进行特征提取,得到视频数据的第一特征、属性文本的第二特征和类型文本的第三特征;进而依据基于第一特征、第二特征和第三特征,训练跨模态查询模型,以依据训练好的跨模态查询模型进行视频查询。本方案中,可以利用跨模态查询模型确定第一特征与第三特征的第一相似度,并确定第二特征与第三特征的第二相似度,并将第一相似度和第二相似度进行融合,进而依据融合相似度来确定模型的分析结果,并与视频数据的标注进行分析,从而完成对模型的训练。本方案中跨模态查询模型可以包括用于对文本进行特征提取的文本编码器、用于对图像进行特征提取的视觉编码器、用于学习文本特征和视觉特征之间的跨模态关系的匹配模块等;文本特征可以存储在文本向量空间内,视觉特征可以存储在视频向量空间内。本方案可以依据文本编码器来对类型文本和属性文本进行特征提取,依据视觉编码器对视频数据进行特征提取,依据匹配模块来学习文本向量空间和视频向量空间之间的特征映射关系。

本文档来自技高网...

【技术保护点】

1.一种视频查询方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于第一特征、第二特征和第三特征,训练跨模态查询模型,包括:

3.根据权利要求2所述的方法,其特征在于,提取视频数据的第一特征的步骤,包括:

4.根据权利要求3所述的方法,其特征在于,所述依据视频帧的帧特征和视频数据对应的类型文本,确定各视频帧的时间显著性,包括:

5.根据权利要求1所述的方法,其特征在于,所述对视频数据进行属性识别,确定视频数据的属性文本,包括:

6.根据权利要求5所述的方法,其特征在于,所述获取视频数据各视频帧的帧特征,以确定视频特征,包括:

7.根据权利要求5所述的方法,其特征在于,视频数据的属性文本包括多个类型文本;提取视频数据的属性文本的第二特征的步骤,包括:

8.一种视频查询方法,其特征在于,所述方法包括:

9.一种视频查询装置,其特征在于,所述装置包括:

10.一种电子设备,其特征在于,包括:至少一个处理器以及至少一个存储器,其中,

【技术特征摘要】

1.一种视频查询方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于第一特征、第二特征和第三特征,训练跨模态查询模型,包括:

3.根据权利要求2所述的方法,其特征在于,提取视频数据的第一特征的步骤,包括:

4.根据权利要求3所述的方法,其特征在于,所述依据视频帧的帧特征和视频数据对应的类型文本,确定各视频帧的时间显著性,包括:

5.根据权利要求1所述的方法,其特征在于,所述对视频数据进行属性识别,确定视频...

【专利技术属性】
技术研发人员:陈世峰罗海鹏
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1