当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于语义级时序关联建模的视频时序动作定位方法技术

技术编号:35938255 阅读:30 留言:0更新日期:2022-12-14 10:25
本发明专利技术涉及计算机视觉领域,公开了一种基于语义级时序关联建模的视频时序动作定位方法,首先,设计了前景掩码生成模块,自适应性地生成前景掩码,前景掩码在后续中用于指引Transformer模块建模与动作帧的语义级关联,掩码引导的Transformer模块利用前景掩码来引导注意力机制学习语义层次的相似性,最后,在一个统一的框架中融合了两个模块,实现一个端到端的时序动作定位深度神经网络。本发明专利技术能够充分建模视频帧与动作片段之间的语义级时序关联,捕获动作的特征信息并抑制背景噪声干扰,使得时序动作定位结果具有更好的准确度,能够在复杂的视频中准确地定位动作区间。能够在复杂的视频中准确地定位动作区间。能够在复杂的视频中准确地定位动作区间。

【技术实现步骤摘要】
一种基于语义级时序关联建模的视频时序动作定位方法


[0001]本专利技术涉及计算机视觉领域,具体是涉及一种基于语义级时序关联建模的视频时序动作定位方法。

技术介绍

[0002]视频时序动作定位是计算机视觉领域的基本任务之一,其任务目的是在长视频中定位其中人为动作发生的起始时间、终止时间、及其相应类别。它在现实生活中具有重要的应用价值和意义,例如视频检索、视频推荐等。在深度学习的推动下,智能视频分析领域得以蓬勃发展,本专利技术主要面向的是基于深度学习的视频时序动作定位任务,基于深度学习算法自动检测视频中人为动作发生的时序区间。对视频进行时序动作定位,实现视频数据的自动化处理,在智能监控、虚拟现实、机器人控制等领域有着广阔的应用前景,对于推动智能视频分析技术的发展具有重大意义。
[0003]时序动作定位的关键任务是建模不同时间戳之间的时序关联。根据时序关系建模的尺度,目前的方法可以分为三种类型:局部级别、提议级别和全局级别方法。局部级方法包括基于锚框的回归方法和基于帧级的匹配方法。基于锚框的回归方法是在视频片段上均匀分布预定义的不同尺寸锚框,通过挖掘锚框内视频片段的上下文信息从而回归动作片段。此类方法由于受限于锚框的尺寸,无法生成时序更加灵活的提议片段。基于帧级匹配的方法首先评估视频每帧为动作起始和终止的概率,然后匹配起始——终止帧从而生成动作片段,因此此类方法可以预测更加时序尺度灵活的定位片段。但是局部级方法只挖掘了视频中相邻帧之间的联系,从而使动作边界概率对视频中的噪声场景非常敏感,导致错误的边界划分。提议级方法通过在每个提案中的不同时间戳上采样视频特征,构建提案的特征表示,以捕获更多的时间上下文。他们在提案特征图上利用二维卷积网络,或采用图卷积网络来建模提案之间的关系。全局级别方法采用“查询和检索”过程或利用视觉Transformer对全局时序相关性进行编码。
[0004]但是现实场景中,一段包含动作片段的视频通常还带有一些与动作不相关的背景帧,它们通常不能够为视频理解提供有效的信息,甚至会带来干扰。现有方法都不能很好的避免这些背景帧对动作片段定位的影响,无法避免背景帧的干扰。

技术实现思路

[0005]针对上述问题,本专利技术提出了一种基于语义级时序关联建模的视频时序动作定位方法,本专利技术从两个角度研究了视频中前景(动作片段)和背景(非动作帧)之间的语义级关联:1)语义内相似性:对于前景片段,从其他动作片段中学习语义内相似度可以提取更多支持性线索。2)语义间相似性:对于背景片段,捕捉它们与前景之间的语义间距离有助于区分它们与动作的相似外观或运动模式,从而抑制假阳性检测和背景的干扰。
[0006]为了实现上述目的,本专利技术提供一种基于语义级时序关联建模的视频时序动作定位方法,包括以下步骤:
[0007]S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码;
[0008]S2、利用前景掩码生成模块建模视频的全局时序关联,预测生成动作前景(动作主体和边界)的掩码;
[0009]S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联,提取动作的特征同时抑制背景干扰;
[0010]S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图,用于时序动作提议和评估;
[0011]S5、对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于语义级关联建模的视频时序动作定位方法;
[0012]S6、利用所述基于语义级关联建模的视频时序动作定位方法在新的视频序列中定位动作目标。
[0013]优选的,所述步骤S1具体包括以下步骤:
[0014]S11、将原始未经剪辑的长视频视为一个帧集合然后按规则的帧间隔δ将其分割为一个片段集合其中l
s
=l
v
/δ;
[0015]S12、将每个片段输入到预训练的双流网络TSN中,提取每个片段的特征通过这种方式,获得片段特征序列
[0016]S13、采用线性插值将每个视频统一到相同的时序长度,视频特征提取单元输出表示为的视频特征,包含T个特征单元,由后续模块共享。
[0017]优选的,所述步骤S2具体包括以下步骤:
[0018]S21、利用全局感知注意力模块建模视频的全局时序关联;输入视频特征F,添加正弦位置编码,然后利用线性变换将视频特征投影到三个不同特征表达,即查询键和值利用这三个特征进行自注意力计算,学习视频片段之间的时序交互,输出全局关联建模的将输入到具有ReLU激活函数、残差连接和层归一化的前馈神经网络中,最后输出由全局上下文建模的特征
[0019]S22、利用全局上下文建模的特征F
g
预测动作主体前景掩码和动作边界前景掩码;首先利用堆叠的一维时序卷积和Sigmoid激活函数预测每一个视频片段动作主体、起始和结束的概率其次,将概率序列设定阈值进行二值化操作,得到前景掩码序列这些序列中的第i元素S
i
∈{0,1}表示第i个片段的前景二进制概率,然后,在时序维度上将前景掩码序列复制T次,得到二维前景掩码图;最后,为了引入前景周围的动作运动趋势信息,在二维掩码图上利用膨胀核对前景掩码图进行膨胀操作,得到膨胀后的前景掩码图
[0020]优选的,所述步骤S21具体为:对输入视频特征添加正弦位置编码,得到经过位置编码后视频特征F';利用该特征进行自注意力计算,计算过程具体为:
[0021]Q=W
Q
F

,K=W
K
F

,V=W
V
F

[0022][0023]其中为网络中可学习权值,d=C/M表示每个注意力头的维度,LN表示层归一化。自注意力机制输出全局关联建模的视频特征然后与特征F'按元素相加,之后送入带有ReLU激活函数的前馈神经网络,增强特征的非线性表达能力,将结果与按元素相加,从而获得全局上下文建模的特征
[0024]优选的,所述步骤S22前景掩码预测过程中动作主体的二值化阈值设置为0.4,边界掩码二值化阈值设置为0.5,膨胀核的大小设置为kernel=(3,3)。
[0025]优选的,所述步骤S3具体包括以下步骤:
[0026]S31、对输入视频特征序列F添加位置编码,进行线性映射将其映射到四个新的特征矩阵分别表示视频的查询特征、值特征、动作开始键特征和动作结束键特征;然后,计算查询特征和两个键特征的余弦相似度,输出动作起始相似度和动作结束相似度
[0027]S32、基于前景掩码图,构造掩码操作M(
·
),然后将掩码结果与动作起始相似度SM
s
、动作结束相似度SM
e
的Hadamard积,得到掩码引导映射
[0028]S33、使用Softmax函数将掩码引导映射进行归一化,然后与值矩阵相乘,从视频的动作片段中捕获语义关联得到动作起始和动作结束增强特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,包括以下步骤:S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码;S2、利用前景掩码生成模块建模视频的全局时序关联,预测生成动作前景(动作主体和边界)的掩码;S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联,提取动作的特征同时抑制背景干扰;S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图,用于时序动作提议和评估;S5、对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于语义级关联建模的视频时序动作定位方法;S6、利用所述基于语义级关联建模的视频时序动作定位方法在新的视频序列中定位动作目标。2.根据权利要求1所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S1具体包括以下步骤:S11、将原始未经剪辑的长视频视为一个帧集合然后按规则的帧间隔δ将其分割为一个片段集合其中l
s
=l
v
/δ;S12、将每个片段输入到预训练的双流网络TSN中,提取每个片段的特征通过这种方式,获得片段特征序列S13、采用线性插值将每个视频统一到相同的时序长度,视频特征提取单元输出表示为的视频特征,包含T个特征单元,由后续模块共享。3.根据权利要求1所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S2具体包括以下步骤:S21、利用全局感知注意力模块建模视频的全局时序关联;输入视频特征F,添加正弦位置编码,然后利用线性变换将视频特征投影到三个不同特征表达,即查询键和值利用这三个特征进行自注意力计算,学习视频片段之间的时序交互,输出全局关联建模的将输入到具有ReLU激活函数、残差连接和层归一化的前馈神经网络中,最后输出由全局上下文建模的特征S22、利用全局上下文建模的特征F
g
预测动作主体前景掩码和动作边界前景掩码;首先利用堆叠的一维时序卷积和Sigmoid激活函数预测每一个视频片段动作主体、起始和结束的概率其次,将概率序列设定阈值进行二值化操作,得到前景掩码序列然后,在时序维度上将前景掩码序列复制T次,得到二维前景掩码图;最后,为了引入前景周围的动作运动趋势信息,在二维掩码图上利用膨胀核对前景掩码图进行膨胀操作,得到膨胀后的前景掩码图4.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S21具体为:对输入视频特征添加正弦位置编码,得到经过位置编码后
视频特征F';利用该特征进行自注意力计算,计算过程具体为:Q=W
Q
F

,K=W
K
F

,V=W
V
F

其中为网络中可学习权值,d=C/M表示每个注意力头的维度,LN表示层归一化。自注意力机制输出全局关联建模的视频特征然后与特征F'按元素相加,之后送入带有ReLU激活函数的前馈神经网络,增强特征的非线性表达能力,将结果与按元素相加,从而获得全局上下文建模的特征5.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S22前景掩码预测过程中动作主体的二值化阈值设置为0.4,边界掩码二值化阈值设置为0.5,膨胀核的大小设置为kernel=(3,3)。6.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S3具体包括以下步骤:S31、对输入视频特征序列F添加位置编码,进行线性映射将其映射到四个新的特征矩阵分别表示视频的查询特征、值特征、动作开始键特征和动作结束键特征;然后,计算查询特征和两个键特征的余弦相似度,输出动作起始相似度和动作结束相似度S32、基于前景掩码图,构造掩码操作M(
·
),然后将掩码结果与动作起始相似度SM
s
、动作结束相似度SM
e
的Hadamard积,得到掩码引导映射S33、使用Softmax函数将掩码引导映射进行归一化,然后与值矩阵相乘,从视频的动作片段中捕获语义关联得到动作起始和动作结束增强特征,将所述动作起始和动作结束增强特征拼接起来并使用一个一维卷积层将特征的通道数从2C'降低到C;利用残差连接和前馈神经网络来增强非线性得到边界增强特征利用动作主体前景掩码图得到动作主体增强特征7.根据权利要求6所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述余弦相似度的计算过程为:征在于,所述余弦相似度的计算过程为:所述掩码引导的过程为:首先构造掩码操作,然后将掩码结果与动作相似度映射计算Hadamard积,公式表示为:GM
s
=M(M
s
)
°
SM
s
GM
e
=M(M
e
)
°
SM
e
其中M(
·
)表示掩码操作,
°
表示Hadamard乘积。8.根据权利要求6所述的一种基于语义级时...

【专利技术属性】
技术研发人员:刘勇杨煜王蒙蒙
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1