视频多模态分类方法、装置、存储介质以及电子设备制造方法及图纸

技术编号：35267643 阅读：15 留言：0更新日期：2022-10-19 10:32

本发明专利技术公开了一种视频多模态分类方法、装置、存储介质以及电子设备。该方法包括：从测试视频中抽取视频帧，得到第一数量的目标图片；识别目标图片中的文本内容，得到目标文本；将目标图片和目标文本发送至已训练的网络结构模型；通过已训练的网络结构模型对测试视频进行类别预测，确定测试视频的目标类别。本发明专利技术解决了无法对视频特征进行多模态融合并完成分类任务的技术问题。分类任务的技术问题。分类任务的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
视频多模态分类方法、装置、存储介质以及电子设备

[0001]本专利技术涉及计算机领域，具体而言，涉及一种视频多模态分类方法、装置、存储介质以及电子设备。

技术介绍

[0002]随着互联网以及大数据存储等技术的发展，视频数据已经成为随处可见的媒体存储形式。如何对视频数据中包含的行为进行分类已经成为一个热点问题。相比静态图片，动态的视频数据具有数据变化性大、帧间冗余性高等特点，视频中包含的行为具有类间差异模糊、类内变化大等特点；上述特点都增加了对视频中的行为进行分类的难度。现有技术中，视频的行为类别获取方法主要分为两类，一类是基于手工设计特征的视频的行为类别获取方法，另一类是基于深度学习的视频的行为类别获取方法，但准确率低，处理过程需要消耗较较长的时间。

技术实现思路

[0003]本专利技术实施例提供了一种视频多模态分类方法、装置、存储介质以及电子设备，以至少解决无法对视频特征进行多模态融合并完成分类任务的技术问题。
[0004]根据本专利技术实施例的一个方面，提供了一种视频多模态分类方法，包括：从测试视频中抽取视频帧，得到第一数量的目标图片；识别上述目标图片中的文本内容，得到目标文本；将上述目标图片和上述目标文本发送至已训练的网络结构模型；通过上述已训练的网络结构模型对上述测试视频进行类别预测，确定上述测试视频的目标类别。
[0005]根据本专利技术实施例的另一方面，提供了一种视频多模态分类装置，包括：抽取模块，用于从测试视频中抽取视频帧，得到第一数量的目标图片；识别模块，用于识别上述目...

【技术保护点】

【技术特征摘要】
1.一种视频多模态分类方法，其特征在于，包括：从测试视频中抽取视频帧，得到第一数量的目标图片；识别所述目标图片中的文本内容，得到目标文本；将所述目标图片和所述目标文本发送至已训练的网络结构模型；通过所述已训练的网络结构模型对所述测试视频进行类别预测，确定所述测试视频的目标类别。2.根据权利要求1所述的方法，其特征在于，所述从测试视频中抽取视频帧，得到第一数量的目标图片包括：确定从所述测试视频中抽取所述目标图片的所述第一数量；将所述测试视频的帧数比上所述第一数量，得到参考值；从所述测试视频中每所述参考值帧视频帧中抽取一帧视频帧作为一张所述目标图片。3.根据权利要求1所述的方法，其特征在于，所述将所述目标图片和所述目标文本发送至已训练的网络结构模型包括：获取样本视频；抽取所述样本视频中的视频帧，得到第二数量的样本图片；识别所述样本图片中的文本内容，得到样本文本；将所述样本图片和所述样本文本输入至编码器模块，得到融合特征；使用所述融合特征训练所述网络结构模型，得到所述已训练的网络结构模型。4.根据权利要求3所述的方法，其特征在于，所述将所述样本图片和所述样本文本输入至编码器模块，得到融合特征包括：将所述样本图片发送至图像编码器中，得到所述样本图片的图像特征；将所述样本文本发送至文本编码器中，得到所述样本文本的文本特征；对所述图像特征和所述文本特征进行拼接，得到所述融合特征。5.根据根据权利要求3所述的方法，其特征在于，所述使用所述融合特征训练所述网络结构模型，得到所述已训练的网络结构模型包括：将所述融合特征输入到所述网络结构模型中，由所述网络结构模型对所述融合特征进行类别测试，得到所述样本视频的测试结果；根据所述测试结果计算目标损失；将所述目标损失反向传播至所述网络结构模型中，得到所述已训练的网络结构模型。6.根据根据权利要求5所述的方法，其特征在于，所述将所述融合特征输入到所述网络结构模型中，由所述网络结构模...

【专利技术属性】
技术研发人员：胡郡郡，唐大闰，
申请(专利权)人：北京明略昭辉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人