视频多模态分类方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:35267643 阅读:15 留言:0更新日期:2022-10-19 10:32
本发明专利技术公开了一种视频多模态分类方法、装置、存储介质以及电子设备。该方法包括:从测试视频中抽取视频帧,得到第一数量的目标图片;识别目标图片中的文本内容,得到目标文本;将目标图片和目标文本发送至已训练的网络结构模型;通过已训练的网络结构模型对测试视频进行类别预测,确定测试视频的目标类别。本发明专利技术解决了无法对视频特征进行多模态融合并完成分类任务的技术问题。分类任务的技术问题。分类任务的技术问题。

【技术实现步骤摘要】
视频多模态分类方法、装置、存储介质以及电子设备


[0001]本专利技术涉及计算机领域,具体而言,涉及一种视频多模态分类方法、装置、存储介质以及电子设备。

技术介绍

[0002]随着互联网以及大数据存储等技术的发展,视频数据已经成为随处可见的媒体存储形式。如何对视频数据中包含的行为进行分类已经成为一个热点问题。相比静态图片,动态的视频数据具有数据变化性大、帧间冗余性高等特点,视频中包含的行为具有类间差异模糊、类内变化大等特点;上述特点都增加了对视频中的行为进行分类的难度。现有技术中,视频的行为类别获取方法主要分为两类,一类是基于手工设计特征的视频的行为类别获取方法,另一类是基于深度学习的视频的行为类别获取方法,但准确率低,处理过程需要消耗较较长的时间。

技术实现思路

[0003]本专利技术实施例提供了一种视频多模态分类方法、装置、存储介质以及电子设备,以至少解决无法对视频特征进行多模态融合并完成分类任务的技术问题。
[0004]根据本专利技术实施例的一个方面,提供了一种视频多模态分类方法,包括:从测试视频中抽取视频帧,得到第一数量的目标图片;识别上述目标图片中的文本内容,得到目标文本;将上述目标图片和上述目标文本发送至已训练的网络结构模型;通过上述已训练的网络结构模型对上述测试视频进行类别预测,确定上述测试视频的目标类别。
[0005]根据本专利技术实施例的另一方面,提供了一种视频多模态分类装置,包括:抽取模块,用于从测试视频中抽取视频帧,得到第一数量的目标图片;识别模块,用于识别上述目标图片中的文本内容,得到目标文本;发送模块,用于将上述目标图片和上述目标文本发送至已训练的网络结构模型;预测模块,用于通过上述已训练的网络结构模型对上述测试视频进行类别预测,确定上述测试视频的目标类别。
[0006]作为一种可选的示例,上述抽取模块包括:确定单元,用于确定从上述测试视频中抽取上述目标图片的上述第一数量;第一处理单元,用于将上述测试视频的帧数比上上述第一数量,得到参考值;第一抽取单元,用于从上述测试视频中每上述参考值帧视频帧中抽取一帧视频帧作为一张上述目标图片。
[0007]作为一种可选的示例,上述发送模块包括:获取单元,用于获取样本视频;第二抽取单元,用于抽取上述样本视频中的视频帧,得到第二数量的样本图片;识别单元,用于识别上述样本图片中的文本内容,得到样本文本;第二处理单元,用于将上述样本图片和上述样本文本输入至编码器模块,得到融合特征;训练单元,用于使用上述融合特征训练上述网络结构模型,得到上述已训练的网络结构模型。
[0008]作为一种可选的示例,上述第二处理单元包括:第一发送子单元,用于将上述样本图片发送至图像编码器中,得到上述样本图片的图像特征;第二发送子单元,用于将上述样
本文本发送至文本编码器中,得到上述样本文本的文本特征;拼接子单元,用于对上述图像特征和上述文本特征进行拼接,得到上述融合特征。
[0009]作为一种可选的示例,上述训练单元包括:测试子单元,用于将上述融合特征输入到上述网络结构模型中,由上述网络结构模型对上述融合特征进行类别测试,得到上述样本视频的测试结果;计算子单元,用于根据上述测试结果计算目标损失;传播子单元,用于将上述目标损失反向传播至上述网络结构模型中,得到上述已训练的网络结构模型。
[0010]作为一种可选的示例,上述测试子单元还用于:调整上述融合特征的时序,得到第一特征;对上述第一特征执行降维操作,得到降维后的第二特征;对上述第二特征进行平均池化操作,得到目标特征;由上述网络结构模型的分类器对上述目标特征进行分类,得到上述样本视频的上述测试结果。
[0011]作为一种可选的示例,上述装置还包括:计算模块,用于计算上述样本视频中的每一个视频与标准视频的视频距离;确定模块,用于根据上述视频距离,确定上述样本视频中的正样本视频和负样本视频。
[0012]作为一种可选的示例,上述确定模块包括:确定单元,用于从上述样本视频中随机选择多个视频作为上述正样本视频,并确定上述负样本视频,其中,上述负样本视频的上述视频距离大于上述正样本的上述视频距离,且小于上述正样本的上述视频距离与调节参数的和;或者从上述样本视频中随机选择多个视频作为上述负样本视频,并确定上述正样本视频,其中,上述正样本视频的上述视频距离大于上述负样本的上述视频距离与调节参数的差,且小于上述负样本的上述视频距离。
[0013]根据本专利技术实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述视频多模态分类方法。
[0014]根据本专利技术实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的视频多模态分类方法。
[0015]在本申请的上述视频多模态分类方法可用于深度学习技术的计算机视觉的过程中,在本专利技术实施例中,采用了从测试视频中抽取视频帧,得到第一数量的目标图片;识别上述目标图片中的文本内容,得到目标文本;将上述目标图片和上述目标文本发送至已训练的网络结构模型;通过上述已训练的网络结构模型对上述测试视频进行类别预测,确定上述测试视频的目标类别的方法,由于在上述方法中,通过将测试视频的目标图片和目标文本发送至已训练的网络结构模型,确定测试视频的目标类别,从而实现了对视频特征进行多模态融合并完成分类任务的目的,进而解决了无法对视频特征进行多模态融合并完成分类任务的技术问题。
附图说明
[0016]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0017]图1是根据本专利技术实施例的一种可选的视频多模态分类方法的流程图;
[0018]图2是根据本专利技术实施例的一种可选的视频多模态分类方法的模型图;
[0019]图3是根据本专利技术实施例的一种可选的视频多模态分类装置的结构示意图;
[0020]图4是根据本专利技术实施例的一种可选的电子设备的示意图。
具体实施方式
[0021]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0022]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频多模态分类方法,其特征在于,包括:从测试视频中抽取视频帧,得到第一数量的目标图片;识别所述目标图片中的文本内容,得到目标文本;将所述目标图片和所述目标文本发送至已训练的网络结构模型;通过所述已训练的网络结构模型对所述测试视频进行类别预测,确定所述测试视频的目标类别。2.根据权利要求1所述的方法,其特征在于,所述从测试视频中抽取视频帧,得到第一数量的目标图片包括:确定从所述测试视频中抽取所述目标图片的所述第一数量;将所述测试视频的帧数比上所述第一数量,得到参考值;从所述测试视频中每所述参考值帧视频帧中抽取一帧视频帧作为一张所述目标图片。3.根据权利要求1所述的方法,其特征在于,所述将所述目标图片和所述目标文本发送至已训练的网络结构模型包括:获取样本视频;抽取所述样本视频中的视频帧,得到第二数量的样本图片;识别所述样本图片中的文本内容,得到样本文本;将所述样本图片和所述样本文本输入至编码器模块,得到融合特征;使用所述融合特征训练所述网络结构模型,得到所述已训练的网络结构模型。4.根据权利要求3所述的方法,其特征在于,所述将所述样本图片和所述样本文本输入至编码器模块,得到融合特征包括:将所述样本图片发送至图像编码器中,得到所述样本图片的图像特征;将所述样本文本发送至文本编码器中,得到所述样本文本的文本特征;对所述图像特征和所述文本特征进行拼接,得到所述融合特征。5.根据根据权利要求3所述的方法,其特征在于,所述使用所述融合特征训练所述网络结构模型,得到所述已训练的网络结构模型包括:将所述融合特征输入到所述网络结构模型中,由所述网络结构模型对所述融合特征进行类别测试,得到所述样本视频的测试结果;根据所述测试结果计算目标损失;将所述目标损失反向传播至所述网络结构模型中,得到所述已训练的网络结构模型。6.根据根据权利要求5所述的方法,其特征在于,所述将所述融合特征输入到所述网络结构模型中,由所述网络结构模...

【专利技术属性】
技术研发人员:胡郡郡唐大闰
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1