视频特征提取方法及装置、存储介质及电子设备制造方法及图纸

技术编号：40830464 阅读：2 留言：0更新日期：2024-04-01 14:53

本发明专利技术提供一种视频特征提取方法及装置、存储介质及电子设备，包括：基于特征提取信号确定至少一个视频，获取视频的音频数据和各个视频帧；调用多模态视频特征提取模型对音频数据和各个视频帧进行处理，输出视频的视频特征数据；视频特征数据包括视频内容特征和自然语言特征处理结果，视频内容特征包含视频的各个视频帧的特征权重以及时序位置编码。本发明专利技术使用结合多个应用任务进行训练得到的多模态视频特征提取模型提取特征，提取的视频特征数据适用于使用应用任务构建的各种应用场景，提取的视频特征数据的应用更加广泛，且视频特征数据包括视频帧的特征权重以及时序位置编码，提高视频特征数据的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频特征处理，特别涉及一种视频特征提取方法及装置、存储介质及电子设备。

技术介绍

1、随着计算机技术的发展，视频处理技术的应用越来越广泛，通过视频处理技术，提取视频中的特征，然后使用提取到的特征满足用户的各种需求。例如实现视频分类、查找视频以及视频推荐等各种任务。

2、应用传统的特征提取方式提取视频中的特征时，通常是对视频的视频帧的特征进行提取，然后将各帧的特征融合成视频的特征。使用传统的特征提取方式忽略了视频帧间的时序特征以及特征权重，导致提取出的视频特征难以准确的表征视频，难以满足相应任务的需求。

技术实现思路

1、有鉴于此，本专利技术提供一种视频特征提取方法及装置、存储介质及电子设备，应用本专利技术提供的方案提取的视频特征中包含视频帧的特征权重以及时序位置编码，提高视频特征提取的准确性，使得提取的视频特征更加准确的表征视频。

2、为实现上述目的，本专利技术实施例提供如下技术方案：

3、本专利技术第一方面公开一种视频特征提取方法，包括：

4、基于特征提取信号确定待提取特征的至少一个视频；

5、获取所述视频的音频数据和各个视频帧；

6、调用预先训练完成的多模态视频特征提取模型对所述音频数据和各个所述视频帧进行处理，输出所述视频的视频特征数据；所述多模态视频特征提取模型为结合多个应用任务进行训练得到的模型；所述视频特征数据包括视频内容特征和自然语言特征处理结果，所述视频内容特征包含所述视频的各个视

7、本专利技术第二方面公开一种视频特征提取装置，包括：

8、确定单元，用于基于特征提取信号确定待提取特征的至少一个视频；

9、获取单元，用于获取所述视频的音频数据和各个视频帧；

10、输出单元，用于调用预先训练完成的多模态视频特征提取模型对所述音频数据和各个所述视频帧进行处理，输出所述视频的视频特征数据；所述多模态视频特征提取模型为结合多个应用任务进行训练得到的模型；所述视频特征数据包括视频内容特征和自然语言特征处理结果，所述视频内容特征包含所述视频的各个视频帧的特征权重以及时序位置编码。

11、本专利技术第三方面公开一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上所述的视频特征提取方法。

12、本专利技术第四方面公开一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上所述的视频特征提取方法。

13、与现有技术相比，本专利技术具有以下优点：

14、本专利技术提供一种视频特征提取方法及装置、存储介质及电子设备，该方案包括：基于特征提取信号确定待提取特征的至少一个视频，获取视频的音频数据和各个视频帧；调用预先训练完成的多模态视频特征提取模型对音频数据和各个视频帧进行处理，输出视频的视频特征数据；多模态视频特征提取模型为结合多个应用任务进行训练得到的模型；视频特征数据包括视频内容特征和自然语言特征处理结果，视频内容特征包含视频的各个视频帧的特征权重以及时序位置编码。本专利技术提供的方案提取特征所使用的多模态视频特征提取模型为结合多个应用任务进行训练得到的模型，由此，多模态视频特征提取模型所提取的视频特征数据可以适用于使用应用任务构建的各种应用场景中，使得提取的视频特征数据的应用更加广泛，提取的视频特征数据包括视频帧的特征权重以及时序位置编码，提高视频特征数据的准确性。

本文档来自技高网...

【技术保护点】

1.一种视频特征提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述调用预先训练完成的多模态视频特征提取模型对所述音频数据和各个所述视频帧进行处理，输出所述视频的视频特征数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于预设的权重聚类信息，对每个所述视频帧的升维特征数据进行处理，得到每个所述视频帧的帧级特征数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述视频帧的各个所述第一特征权重、各个所述第二特征权重以及各个所述差值，得到所述视频帧的各个混合特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，训练多模态视频特征提取模型的过程，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取所述视频的音频数据和各个视频帧，包括：

8.一种视频特征提取装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1-7任意一项所述的视频特征提取方法。

...

【技术特征摘要】

1.一种视频特征提取方法，其特征在于，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

<...

【专利技术属性】
技术研发人员：高鹏，舒蕾，
申请(专利权)人：北京搜狐新媒体信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人