【技术实现步骤摘要】
一种基于语义级时序关联建模的视频时序动作定位方法
[0001]本专利技术涉及计算机视觉领域,具体是涉及一种基于语义级时序关联建模的视频时序动作定位方法。
技术介绍
[0002]视频时序动作定位是计算机视觉领域的基本任务之一,其任务目的是在长视频中定位其中人为动作发生的起始时间、终止时间、及其相应类别。它在现实生活中具有重要的应用价值和意义,例如视频检索、视频推荐等。在深度学习的推动下,智能视频分析领域得以蓬勃发展,本专利技术主要面向的是基于深度学习的视频时序动作定位任务,基于深度学习算法自动检测视频中人为动作发生的时序区间。对视频进行时序动作定位,实现视频数据的自动化处理,在智能监控、虚拟现实、机器人控制等领域有着广阔的应用前景,对于推动智能视频分析技术的发展具有重大意义。
[0003]时序动作定位的关键任务是建模不同时间戳之间的时序关联。根据时序关系建模的尺度,目前的方法可以分为三种类型:局部级别、提议级别和全局级别方法。局部级方法包括基于锚框的回归方法和基于帧级的匹配方法。基于锚框的回归方法是在视频片段上均匀分布预定义的不同尺寸锚框,通过挖掘锚框内视频片段的上下文信息从而回归动作片段。此类方法由于受限于锚框的尺寸,无法生成时序更加灵活的提议片段。基于帧级匹配的方法首先评估视频每帧为动作起始和终止的概率,然后匹配起始——终止帧从而生成动作片段,因此此类方法可以预测更加时序尺度灵活的定位片段。但是局部级方法只挖掘了视频中相邻帧之间的联系,从而使动作边界概率对视频中的噪声场景非常敏感,导致错误的边界划分。提议级 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,包括以下步骤:S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码;S2、利用前景掩码生成模块建模视频的全局时序关联,预测生成动作前景(动作主体和边界)的掩码;S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联,提取动作的特征同时抑制背景干扰;S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图,用于时序动作提议和评估;S5、对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于语义级关联建模的视频时序动作定位方法;S6、利用所述基于语义级关联建模的视频时序动作定位方法在新的视频序列中定位动作目标。2.根据权利要求1所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S1具体包括以下步骤:S11、将原始未经剪辑的长视频视为一个帧集合然后按规则的帧间隔δ将其分割为一个片段集合其中l
s
=l
v
/δ;S12、将每个片段输入到预训练的双流网络TSN中,提取每个片段的特征通过这种方式,获得片段特征序列S13、采用线性插值将每个视频统一到相同的时序长度,视频特征提取单元输出表示为的视频特征,包含T个特征单元,由后续模块共享。3.根据权利要求1所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S2具体包括以下步骤:S21、利用全局感知注意力模块建模视频的全局时序关联;输入视频特征F,添加正弦位置编码,然后利用线性变换将视频特征投影到三个不同特征表达,即查询键和值利用这三个特征进行自注意力计算,学习视频片段之间的时序交互,输出全局关联建模的将输入到具有ReLU激活函数、残差连接和层归一化的前馈神经网络中,最后输出由全局上下文建模的特征S22、利用全局上下文建模的特征F
g
预测动作主体前景掩码和动作边界前景掩码;首先利用堆叠的一维时序卷积和Sigmoid激活函数预测每一个视频片段动作主体、起始和结束的概率其次,将概率序列设定阈值进行二值化操作,得到前景掩码序列然后,在时序维度上将前景掩码序列复制T次,得到二维前景掩码图;最后,为了引入前景周围的动作运动趋势信息,在二维掩码图上利用膨胀核对前景掩码图进行膨胀操作,得到膨胀后的前景掩码图4.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S21具体为:对输入视频特征添加正弦位置编码,得到经过位置编码后
视频特征F';利用该特征进行自注意力计算,计算过程具体为:Q=W
Q
F
′
,K=W
K
F
′
,V=W
V
F
′
其中为网络中可学习权值,d=C/M表示每个注意力头的维度,LN表示层归一化。自注意力机制输出全局关联建模的视频特征然后与特征F'按元素相加,之后送入带有ReLU激活函数的前馈神经网络,增强特征的非线性表达能力,将结果与按元素相加,从而获得全局上下文建模的特征5.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S22前景掩码预测过程中动作主体的二值化阈值设置为0.4,边界掩码二值化阈值设置为0.5,膨胀核的大小设置为kernel=(3,3)。6.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S3具体包括以下步骤:S31、对输入视频特征序列F添加位置编码,进行线性映射将其映射到四个新的特征矩阵分别表示视频的查询特征、值特征、动作开始键特征和动作结束键特征;然后,计算查询特征和两个键特征的余弦相似度,输出动作起始相似度和动作结束相似度S32、基于前景掩码图,构造掩码操作M(
·
),然后将掩码结果与动作起始相似度SM
s
、动作结束相似度SM
e
的Hadamard积,得到掩码引导映射S33、使用Softmax函数将掩码引导映射进行归一化,然后与值矩阵相乘,从视频的动作片段中捕获语义关联得到动作起始和动作结束增强特征,将所述动作起始和动作结束增强特征拼接起来并使用一个一维卷积层将特征的通道数从2C'降低到C;利用残差连接和前馈神经网络来增强非线性得到边界增强特征利用动作主体前景掩码图得到动作主体增强特征7.根据权利要求6所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述余弦相似度的计算过程为:征在于,所述余弦相似度的计算过程为:所述掩码引导的过程为:首先构造掩码操作,然后将掩码结果与动作相似度映射计算Hadamard积,公式表示为:GM
s
=M(M
s
)
°
SM
s
GM
e
=M(M
e
)
°
SM
e
其中M(
·
)表示掩码操作,
°
表示Hadamard乘积。8.根据权利要求6所述的一种基于语义级时...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。