System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视频数据处理方法、装置、设备及介质制造方法及图纸_技高网

视频数据处理方法、装置、设备及介质制造方法及图纸

技术编号:40561810 阅读:8 留言:0更新日期:2024-03-05 19:24
本申请涉及数据处理技术领域和智能养老相关领域,公开了一种视频数据处理方法、装置、设备及介质,包括:将第一视频对应的第一视频编码向量进行卷积运算,得到第一视频块编码向量;将第一文本信息对应的第一文本编码向量与第一视频块编码向量进行交互注意力融合处理,得到第一融合视频块向量;将第一融合视频块向量与第一文本编码向量进行对比学习损失函数构建,得到目标损失函数;根据目标损失函数获取第一文本信息与第一视频中的k个第一视频块中的每个第一视频块对应的损失值,得到第一损失值集合;根据第一损失值集合从k个第一视频块中确定出与第一文本信息对应的目标视频块。通过本申请提供方法,能够准确地检索到与给定文本相关的视频块。

【技术实现步骤摘要】

本申请涉及数据处理和智能养老相关领域,尤其涉及一种视频数据处理方法、装置、设备及介质


技术介绍

1、随着终端设备和多媒体的发展,越来越多的终端设备可以实现通过多媒体的形式向用户呈现信息,如多媒体形式的广告信息、多媒体形式的娱乐信息等。目前,视频时刻检索(video moment retrieval)技术可以从给定的一段视频中检索出与给定文本的语义最相匹配的视频片段,从而可以实现快速生成用户所需要的视频的目的。但是,由于一个视频由多帧的图像组成,视频时刻检索技术是一项细粒度的检索任务,因此如何能够准确地检索到与给定文本相关的视频块成为了目前亟待解决的问题。


技术实现思路

1、本申请提供一种视频数据处理方法、装置、设备及介质,以解决如何能够准确地检索到与给定文本相关的视频块的技术问题。

2、第一方面,提供了一种视频数据处理方法,包括:

3、将第一视频对应的第一视频编码向量进行卷积运算,得到第一视频块编码向量;

4、将第一文本信息对应的第一文本编码向量与第一视频块编码向量进行交互注意力融合处理,得到第一融合视频块向量;

5、将第一融合视频块向量与第一文本编码向量进行对比学习损失函数构建,得到目标损失函数;

6、根据目标损失函数获取第一文本信息与第一视频中的k个第一视频块中的每个第一视频块对应的损失值,以得到第一损失值集合,k为正整数;根据第一损失值集合从k个第一视频块中确定出与第一文本信息对应的目标视频块。

7、第二方面,提供了一种视频数据处理装置,包括:

8、处理模块,用于将第一视频对应的第一视频编码向量进行卷积运算,得到第一视频块编码向量;

9、处理模块,还用于将第一文本信息对应的第一文本编码向量与第一视频块编码向量进行交互注意力融合处理,得到第一融合视频块向量;

10、处理模块,还用于将第一融合视频块向量与第一文本编码向量进行对比学习损失函数构建,得到目标损失函数;

11、获取模块,用于根据目标损失函数获取第一文本信息与第一视频中的k个第一视频块中的每个第一视频块对应的损失值,以得到第一损失值集合,k为正整数;

12、确定模块,用于根据第一损失值集合从k个第一视频块中确定出与第一文本信息对应的目标视频块。

13、第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述视频数据处理方法的步骤。

14、第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述视频数据处理方法的步骤。

15、上述视频数据处理方法、装置、设备及介质所实现的方案中,通过将第一视频对应的第一视频编码向量进行卷积运算,得到第一视频块编码向量,并将第一文本信息对应的第一文本编码向量与第一视频块编码向量进行交互注意力融合处理,得到第一融合视频块向量,以进一步引入对比学习的方式将文本和视频进行对齐和融合,基于第一融合视频块向量与第一文本编码向量进行对比学习损失函数构建,得到能够更加关注到与文本相关的视频片段的目标损失函数,从而可以根据目标损失函数获取第一文本信息与第一视频中的k个第一视频块中的每个第一视频块对应的损失值,以得到第一损失值集合,进而根据第一损失值集合从k个第一视频块中确定出与第一文本信息对应的目标视频块,能够准确地检索到与给定文本相关的视频块。

本文档来自技高网...

【技术保护点】

1.一种视频数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的视频数据处理方法,其特征在于,所述将所述第一融合视频块向量与所述第一文本编码向量进行对比学习损失函数构建,得到目标损失函数,包括:

3.根据权利要求2所述的视频数据处理方法,其特征在于,所述将所述第一融合视频块向量与所述第一文本编码向量进行注意力计算,得到目标正向注意力特征,包括:

4.根据权利要求3所述的视频数据处理方法,其特征在于,所述将所述第一融合视频块向量与所述第一文本编码向量进行对比学习,得到对比学习损失函数,包括:

5.根据权利要求2所述的视频数据处理方法,其特征在于,所述根据所述真实标签、所述中点位置标签、所述边界长度标签和所述块置信度标签、所述对比学习损失函数和所述目标正向注意力特征,确定目标损失函数,包括:

6.根据权利要求1-5中任一项所述的视频数据处理方法,其特征在于,所述方法还包括:

7.根据权利要求1-5中任一项所述的视频数据处理方法,其特征在于,所述方法还包括:

8.一种视频数据处理装置,其特征在于,所述视频数据处理装置包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的视频数据处理方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的视频数据处理方法。

...

【技术特征摘要】

1.一种视频数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的视频数据处理方法,其特征在于,所述将所述第一融合视频块向量与所述第一文本编码向量进行对比学习损失函数构建,得到目标损失函数,包括:

3.根据权利要求2所述的视频数据处理方法,其特征在于,所述将所述第一融合视频块向量与所述第一文本编码向量进行注意力计算,得到目标正向注意力特征,包括:

4.根据权利要求3所述的视频数据处理方法,其特征在于,所述将所述第一融合视频块向量与所述第一文本编码向量进行对比学习,得到对比学习损失函数,包括:

5.根据权利要求2所述的视频数据处理方法,其特征在于,所述根据所述真实标签、所述中点位置标签、所述边界长度标签和所述块置信度标签、所述对比学习损...

【专利技术属性】
技术研发人员:舒畅肖京陈又新
申请(专利权)人:平安科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1