视频语义特征和可扩展粒度感知时序动作检测方法及装置制造方法及图纸

技术编号:39403841 阅读:18 留言:0更新日期:2023-11-19 15:55
本发明专利技术涉及计算机领域,尤其涉及一种视频语义特征和可扩展粒度感知时序动作检测方法及装置,包括以下步骤:视频特征提取;序列到序列的视频语义特征提取;与可扩展粒度感知特征融合,特征融合包括将来自语义流

【技术实现步骤摘要】
视频语义特征和可扩展粒度感知时序动作检测方法及装置


[0001]本专利技术涉及计算机领域,尤其涉及一种视频语义特征和可扩展粒度感知时序动作检测方法及装置


技术介绍

[0002]近年来,随着数字媒体的蓬勃发展,视频内容在人们的日常生活中占据了越来越重要的地位

在这个背景下,时序动作检测作为视频内容理解的关键领域之一,正受到学术界和产业界的广泛瞩目

时序动作检测旨在从复杂的时间序列数据中识别和捕捉人类动作或事件的发生,因此被视为计算机视觉领域中充满挑战性的任务之一

在早期的工作中通常使用传统的特征提取的机器学习方法

这些传统的方法常常使用手工设计的传统特征来表示视频帧,然后采用传统机器学习算法进行分类

然而,这些传统方法通常对特征表示的选择较为依赖人工经验,难以捕捉复杂的语义信息,且在处理长序列时存在计算复杂度较高的问题

[0003]近几年随着深度学习技术的发展,深度学习方法在行为识别任务中得到广泛应用

早期的工作主要基于简单的单流网络,单流网络是指直接将视频帧输入到深度神经网络中进行特征提取和分类

然而,单流网络容易出现过拟合问题,对于较长的视频序列,可能会损失部分时序信息,限制了性能的提升

为了综合利用空间信息和语义理解,一些研究工作使用双流网络结构,其中一个流用于空间信息处理,另一个流用于语义理解

然而,一些双流网络结构设计复杂,需要额外的参数调优,且在特征融合方面可能没有充分利用两个流的信息

一些工作依赖于二步处理以改进识别性能,然而这些方法的查全率主要依赖于第一步检测生成的候选范围
。TadTR
方法提出通过时间自适应机制来提升对视频时序变化的建模能力,然而
DTW
(动态时间扭曲)对于长序列的计算复杂度较高,可能会导致运算开销较大
。AFSD
进一步减少了计算量,通过引入注意力机制,对视频帧中的关键信息进行加权,从而选择最重要的特征来表示视频序列

然而对于复杂的视频场景,注意力机制可能并不总能选择到最佳的特征,导致识别性能有所下降

因此,如何更全面地理解输入数据的特征是本领域研究的重点,大语言模型通常在海量的文本数据上进行预训练,因此它具有丰富的语义知识

这种知识可以为视频行为识别任务提供有价值的辅助信息,帮助提高模型的泛化能力和准确性

基于大语言模型语义理解的方法可能是一种很好的解决方案


技术实现思路

[0004]本专利技术针对现有技术的不足,研制一种视频语义特征和可扩展粒度感知时序动作检测方法及装置,通过搭建双流网络,结合
Tridet
模型的 SGP 特征金字塔和基于 BERT 的 Video2sequence
模块,实现了视频描述特征的提取和融合

这种方法充分利用了视频分类和 video2caption 任务在特征提取层的相似性,并直接利用预先提取的低级特征

[0005]本专利技术解决技术问题的技术方案为:第一方面,本专利技术提供了一种基于视频语义特征和可扩展粒度感知的时序动作检
测方法,包括以下步骤:1)视频特征提取;将待检测的动作视频,通过预训练的
I3D
网络对整个视频进行特征提取,获得整个视频的时空特征序列,每个视频会以特征序列来表示并且输入到网络模型中;2)序列到序列的视频语义特征提取;
201.
将步骤1)中的时空特征序列进行序列特征提取归一化操作作为视讯序列
Video2sequence
和视频语义特征提取模块的输入;
202.Video2sequence
和视频语义特征提取模块利用预训练的
BERT
作为编码器得到视频特征标记,
BERT
是来自变换器的双向编码器表征量,通过多模态转换编码器将视频的时空特征序列转换为视频语义特征序列;
203.

Video2sequence
和视频语义特征提取模块产生的视频语义特征序列进行特征重塑,作为
Video2sequence
和视频语义特征提取模块的语义流输出;3)可扩展粒度感知特征金字塔特征提取;
301.
将步骤1)中的时空特征序列作为可扩展粒度感知特征金字塔模块的输入;
302.
可扩展粒度感知特征金字塔模块利用实例级
Instant

level
分支增加时序特征的可区分性和窗口级
Window

level
分支使网络自适应的抽取不同尺度的特征得到视频流输出;4)视频语义特征与可扩展粒度感知特征融合;
401.
将语义流
Video2sequence
和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征进行拼接融合得到用于分类和定位特征序列;
402.
将语义流
Video2sequence
和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征送入基于三头
Trident

Head 的检测头,获得最终的分类结果和定位偏移

[0006]上述基于视频语义特征和可扩展粒度感知的时序动作检测方法基础上,步骤 201 序列到序列的视频语义特征提取的具体过程是:加载
THUMOS
数据集,并选择动作分类作为数据标签;将每个时间窗口的特征提取为序列数据,进一步进行归一化操作:归一化操作旨在将特征值范围映射到一定范围内,本方法希望将其映射为 [

1, 1];;其中是原始特征值, 和 分别是特征值的最小值和最大值,得到归一化后的特征序列;将经过特征提取和归一化的时间窗口数据按照顺序组成序列,形成输入序列数据;对多维特征数据进行重塑
reshape
,将其展平成一维向量并输入 BERT
,以此通过序列特征提取归一化得到 BERT 模型的输入

[0007]上述基于视频语义特征和可扩展粒度感知的时序动作检测方法基础上,步骤 202 Video2sequence 模块使用
BERT
作为编码器
,
目标是将视频特征序列转换为语义特征序列, 具体表示方式如下:本方法使用来自
Swin

BERT
的预训练权重作为编码器,
Swin

BERT
通常用于生成自然语言描述给定视频的视觉内容的任务,需要模型理解和建模视频中的时空动态以及视觉和文本元素之间的关系,并生成一系列输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,包括以下步骤:1)视频特征提取;将待检测的动作视频,通过预训练的
I3D
网络对整个视频进行特征提取,获得整个视频的时空特征序列,每个视频会以特征序列来表示并且输入到网络模型中;2)序列到序列的视频语义特征提取;
201.
将步骤1)中的时空特征序列进行序列特征提取归一化操作作为视讯序列
Video2sequence
和视频语义特征提取模块的输入;
202.Video2sequence
和视频语义特征提取模块利用预训练的
BERT
作为编码器得到视频特征标记,
BERT
是来自变换器的双向编码器表征量,通过多模态转换编码器将视频的时空特征序列转换为视频语义特征序列;
203.

Video2sequence
和视频语义特征提取模块产生的视频语义特征序列进行特征重塑,作为
Video2sequence
和视频语义特征提取模块的语义流输出;3)可扩展粒度感知特征金字塔特征提取;
301.
将步骤1)中的时空特征序列作为可扩展粒度感知特征金字塔模块的输入;
302.
可扩展粒度感知特征金字塔模块利用实例级
Instant

level
分支增加时序特征的可区分性和窗口级
Window

level
分支使网络自适应的抽取不同尺度的特征得到视频流输出;4)视频语义特征与可扩展粒度感知特征融合;
401.
将语义流
Video2sequence
和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征进行拼接融合得到用于分类和定位特征序列;
402.
将语义流
Video2sequence
和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征送入基于三头
Trident

Head 的检测头,获得最终的分类结果和定位偏移
。2.
根据权利要求1所述基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,步骤 201 序列到序列的视频语义特征提取的具体过程是:加载
THUMOS
数据集,并选择动作分类作为数据标签;将每个时间窗口的特征提取为序列数据,进一步进行归一化操作:归一化操作旨在将特征值范围映射到一定范围内,本方法希望将其映射为 [

1, 1]

;
其中是原始特征值, 和 分别是特征值的最小值和最大值,得到归一化后的特征序列 ;将经过特征提取和归一化的时间窗口数据按照顺序组成序列,形成输入序列数据;对多维特征数据进行重塑
reshape
,将其展平成一维向量并输入 BERT
,以此通过序列特征提取归一化得到 BERT 模型的输入
。3.
根据权利要求1所述基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,步骤 202 Video2sequence 模块使用 BERT 作为编码器
,
目标是将视频特征序
列转换为语义特征序列,具体表示方式如下:本方法使用来自
Swin

BERT
的预训练权重作为编码器,
Swin

BERT
通常用于生成自然语言描述给定视频的视觉内容的任务,需要模型理解和建模视频中的时空动态以及视觉和文本元素之间的关系,并生成一系列输出语义,该模型可以从提取的视频表示中学习,其中使用
VidSwin
作为视觉编码器,将原始视频帧编码为视频特征标记,给定尺寸为
ꢀꢀ
的原始视帧,由
ꢀꢀ
帧组成,每个帧具有 的特征尺寸,将它们输入 VidSwin
,并从 VidSwin
的最后一个编码器块中提取网格特征,
VidSwin
的网格特征定义为大小 ,其中是通道尺寸;然后,沿通道维度对网格特征进行标记,得到总共视频标记,每个标记都是一个维度的特征向量,将视频标记输入多模态转换编码器中以生成视频语义描述,在此之上,可以使用
Swin

BERT
将时空特征序列转换为语义特征表示,具体过程本方法描述为:
;
其中,表示得到的视频语义特征序列,
BERT
表示
Swin

BERT
模型,表示视频的时空特征序列
;
在中,给定输入序列
: ,其经过自注意力计算后的输出表示为:
;
其中,
、 和 是权重矩阵,表示矩阵乘法,是缩放因子,表示函数,此为输入序列中的每个位置计算出加权的表示,捕捉输入时空特征序列的语义关系,从而实现视频特征序列转换为语义特征序列
。4.
根据权利要求 1 所述基于视频语义特征和可扩展粒度感知的时序动作检测方法,其特征在于,步骤 203 中特征重塑的方法为:将
Video2sequence
和视频语义特征提取模块产生的视频语义特征序列进行特征重塑,作为
Video2sequence
和视频语义特征提取模块的语义流输出,准备与来自可扩展粒度感知特征金字塔模块产生的特征进行特征融合;在进行特征融合前,需要对来自语义流的特征进行特征重塑操作,使语义流的特征尺寸与视频流对齐,以确保两个特征序列能够正确地贴合到一起;使用线性变换对特征进行重塑,表示为:
;
其中,表示重塑后的语义特征,是视频语义特征序列,是权重矩阵,是偏置向量,此操作对视频语义特征进行线性变换,将其映射到新...

【专利技术属性】
技术研发人员:高赞宋虎远马春杰赵一博
申请(专利权)人:山东省人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1