一种视频表征方法、视频分类方法、电子设备及存储介质技术

技术编号:34792455 阅读:56 留言:0更新日期:2022-09-03 19:56
本发明专利技术公开了一种视频表征方法、视频分类方法、电子设备及存储介质,所述视频表征方法包括:获取待表征视频的关键帧和视频片段,其中,所述关键帧和所述视频片段的数量均为一个或多个;基于所述关键帧生成对应的帧向量,根据所述帧向量生成全局特征信息;基于所述视频片段生成对应的视频片段向量,根据所述视频片段向量生成局部特征信息;构建所述帧向量和所述视频片段向量的图结构特征;将所述全局特征信息、所述局部特征信息及所述图结构特征融合,得到所述待表征视频的视频特征表示。本发明专利技术可提高视频表征的准确性。明可提高视频表征的准确性。明可提高视频表征的准确性。

【技术实现步骤摘要】
一种视频表征方法、视频分类方法、电子设备及存储介质


[0001]本专利技术涉及基于深度学习的图像处理
,具体涉及一种视频表征方法、视频分类方法、电子设备及存储介质。

技术介绍

[0002]随着互联网的快速发展,一系列互联网技术对人们的生活产生了重要的影响。特别是随着互联网宽带的提升,5G网络的普及,视频逐渐成为用户传播信息的重要载体。同时,随着短视频、直播等新媒体越来越活跃,也产生了海量的视频信息。如何对这些视频进行分类,对于有效管理用户视频,是非常必要且有挑战性的。
[0003]在视频分类任务中,如何准确有效地表征视频,是进行准确视频分类的关键。现有技术中存在基于关键帧的视频分类方法,顾名思义,其从视频的关键帧中获得视频的有效表征,通过将连续的视频帧序列进行采样,获取若干个具有代表性的视频帧,然后利用这些视频帧进行分类。该视频分类方法处理速度快,但是分类效果一般,因为它只需要处理部分视频帧,然而,视频往往承载复杂的内容,如果仅仅考虑部分视频帧信息,不能准确理解视频内容。

技术实现思路

[0004]本专利技术解决的问题是现有的视频表征方法存在表征准确性不高的缺点。
[0005]本专利技术提出一种视频表征方法,包括:
[0006]获取待表征视频的关键帧和视频片段,其中,所述关键帧和所述视频片段的数量均为一个或多个;
[0007]基于所述关键帧生成对应的帧向量,根据所述帧向量生成全局特征信息;
[0008]基于所述视频片段生成对应的视频片段向量,根据所述视频片段向量生成局部特征信息;
[0009]构建所述帧向量和所述视频片段向量的图结构特征;
[0010]将所述全局特征信息、所述局部特征信息及所述图结构特征融合,得到所述待表征视频的视频特征表示。
[0011]可选地,所述全局特征信息采用基于时空分离Transformer网络生成,所述基于时空分离Transformer网络包括第一时序Transformer模块和多个空间Transformer模块;所述基于所述关键帧生成对应的帧向量,根据所述帧向量生成全局特征信息包括:
[0012]将每个所述关键帧切分成多个图像子块,再将每个所述关键帧的图像子块输入所述关键帧对应的所述空间Transformer模块,得到每个所述关键帧对应的帧向量;
[0013]将所有所述帧向量输入所述第一时序Transformer模块,得到所述全局特征信息。
[0014]可选地,所述局部特征信息采用预设视频提取网络生成,所述预设视频提取网络包括第二时序Transformer模块和基于光流网络的初级特征提取模块;所述基于所述视频片段生成对应的视频片段向量,根据所述视频片段向量生成局部特征信息包括:
[0015]将每个所述视频片段输入所述初级特征提取模块,得到每个所述视频片段对应的视频片段向量;
[0016]将所有所述视频片段向量输入所述第二时序Transformer模块,得到所述局部特征信息。
[0017]可选地,所述获取待表征视频的关键帧和视频片段包括:
[0018]获取所述待表征视频的关键帧;
[0019]根据所述关键帧从所述待表征视频中获得所述视频片段。
[0020]可选地所述构建所述帧向量和所述视频片段向量的图结构特征包括:
[0021]将每个特征向量视为顶点,每个所述特征向量之间的相似度作为边,构建第一全连接图;其中,所述特征向量为所述帧向量和所述视频片段向量中的一者;
[0022]根据所述第一全连接图中的每个顶点和其连接的所有顶点及边,生成每个顶点对应的融合特征;
[0023]利用图注意力机制,获取每个顶点的权重,将每个顶点的权重与对应的融合特征相乘并累加,得到所述特征向量的所述图结构特征。
[0024]可选地,所述关键帧与所述视频片段具有一一对应关系;所述构建所述帧向量和所述视频片段向量的图结构特征包括:
[0025]将每个所述帧向量视为顶点,每个所述帧向量之间的相似度作为第一边,每个所述视频片段向量之间的相似度作为第二边,构建第二全连接图;
[0026]根据所述第二全连接图中的每个顶点和其连接的所有顶点及边,生成每个顶点对应的融合特征;
[0027]利用图注意力机制,获取每个顶点的权重,将每个顶点的权重与对应的融合特征相乘并累加,得到所述帧向量和所述视频片段向量的图结构特征。
[0028]可选地,所述将所述全局特征信息、所述局部特征信息及所述图结构特征融合,得到所述待表征视频的视频特征表示包括:
[0029]将所述全局特征信息、所述局部特征信息及所述图结构特征进行拼接,再利用注意力机制,获取所述全局特征信息、所述局部特征信息及所述图结构特征的动态权重;
[0030]将所述全局特征信息、所述局部特征信息及所述图结构特征和所述动态权重分别进行相乘,获取所述待表征视频的视频特征表示。
[0031]本专利技术还提出一种视频分类方法,包括:
[0032]获取待分类视频;
[0033]采用如上所述的视频表征方法对所述待分类视频进行表征,生成所述待分类视频的视频特征表示;
[0034]基于所述待分类视频的视频特征表示对所述待分类视频进行分类。
[0035]本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如上所述的视频表征方法,或者如上所述的视频分类方法。
[0036]本专利技术还提出一种电子设备,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的视频表征方法,或者如上所述的视频分类方法。
[0037]本专利技术通过获取待表征视频的关键帧和视频片段,利用关键帧建模视频的全局特征信息,利用局部视频片段学习视频的细粒度局部动作信息,再基于关键帧对应的帧向量和视频片段对应的视频片段向量,采用图结构建模帧向量与视频片段向量之间的复杂关联关系,生成基于图的图结构特征,通过将全局特征信息、细粒度局部动作信息及图结构特征结合,得到视频特征表示,既可保证较快的表征速度,又可保证较高的表征准确性,基于该视频特征表示进行的视频分类,也可兼顾分类准确度和处理速度。
附图说明
[0038]图1为本专利技术实施例视频表征方法一流程示意图;
[0039]图2为本专利技术实施例视频表征方法中基于时空分离Transformer和光流网络融合的分类网络的一结构示意图。
具体实施方式
[0040]为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。
[0041]如图1,在本专利技术一实施例中,所述视频表征方法包括:
[0042]步骤S100,获取待表征视频的关键帧和视频片段,其中,所述关键帧和所述视频片段的数量均为一个或多个。
[0043]在进行视频的关键帧抽取时,可采用现有的关键帧抽帧方法抽取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频表征方法,其特征在于,包括:获取待表征视频的关键帧和视频片段,其中,所述关键帧和所述视频片段的数量均为一个或多个;基于所述关键帧生成对应的帧向量,根据所述帧向量生成全局特征信息;基于所述视频片段生成对应的视频片段向量,根据所述视频片段向量生成局部特征信息;构建所述帧向量和所述视频片段向量的图结构特征;将所述全局特征信息、所述局部特征信息及所述图结构特征融合,得到所述待表征视频的视频特征表示。2.如权利要求1所述的视频表征方法,其特征在于,所述全局特征信息采用基于时空分离Transformer网络生成,所述基于时空分离Transformer网络包括第一时序Transformer模块和多个空间Transformer模块;所述基于所述关键帧生成对应的帧向量,根据所述帧向量生成全局特征信息包括:将每个所述关键帧切分成多个图像子块,再将每个所述关键帧的图像子块输入所述关键帧对应的所述空间Transformer模块,得到每个所述关键帧对应的帧向量;将所有所述帧向量输入所述第一时序Transformer模块,得到所述全局特征信息。3.如权利要求1所述的视频表征方法,其特征在于,所述局部特征信息采用预设视频提取网络生成,所述预设视频提取网络包括第二时序Transformer模块和基于光流网络的初级特征提取模块;所述基于所述视频片段生成对应的视频片段向量,根据所述视频片段向量生成局部特征信息包括:将每个所述视频片段输入所述初级特征提取模块,得到每个所述视频片段对应的视频片段向量;将所有所述视频片段向量输入所述第二时序Transformer模块,得到所述局部特征信息。4.如权利要求1所述的视频表征方法,其特征在于,所述获取待表征视频的关键帧和视频片段包括:获取所述待表征视频的关键帧;根据所述关键帧从所述待表征视频中获得所述视频片段。5.如权利要求1所述的视频表征方法,其特征在于,所述构建所述帧向量和所述视频片段向量的图结构特征包括:将每个特征向量视为顶点,每个所述特征向量之间的相似度作为边,构建第一全连接图;其中,所述特征向量为所述帧向量和所述视频片段向量中的一者;根据...

【专利技术属性】
技术研发人员:叶允明李旭涛张保权
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1