一种自下而上改进的视频动作分割网络及其分割方法技术

技术编号:32873704 阅读:70 留言:0更新日期:2022-04-02 12:04
本发明专利技术涉及视频动作识别与分析技术领域,公开了一种自下而上改进的视频动作分割网络及其分割方法。本发明专利技术在多阶段时间卷积网络的基础上,自下而上的先加入可分离和共享卷积改进每一层空洞一维卷积,再在残差连接后加入自适应时间融合模块;在增加输入单元之间的依赖关系的同时引入一种注意力机制来自适应加权网络不同层的时间上下文特征,从而减少无效高频信号的传输,提高多尺度时间上下文特征融合的有效性,提高每一帧的可识别性,减少模糊帧的出现。该改进的多阶段时间卷积网络及采用其的视频动作分割方法具有良好的图像动作识别性能,也进一步提高了视频行为识别的有效性和智能化水平。智能化水平。智能化水平。

【技术实现步骤摘要】
一种自下而上改进的视频动作分割网络及其分割方法


[0001]本专利技术涉及视频动作识别与分析
,更具体的说,特别涉及一种自下而上改进的视频动作分割网络及其分割方法。

技术介绍

[0002]现有视频动作分割方法大致可以分为两类:基于滑动窗口的方法和基于小视频片段的时间建模方法。虽然这两类方法均取得了不错的效果,但算法效率相对较低,且需要大量的计算资源,尤其是在处理较长时长的视频时。近年来,研究人员提出了时间卷积网络(TCN),该网络不仅效率较高、占用内存较少,而且可以有效地对长视频中的时间依赖关系进行建模。鉴于TCN的优越性,许多基于TCN提出的视频动作分割方法备受关注。多阶段时间卷积网络(MS

TCN)就是一种典型的基于TCN提出的视频动作分割网络,该网络具有非常好的性能,目前已成为视频动作分割领域中一种被广泛使用的骨干网络。
[0003]MS

TCN网络由一系列空洞一维卷积、残差连接和损失函数组成,该网络可以用少量参数扩展时间感受野,并可以对视频的全时序信息进行建模。MS
...

【技术保护点】

【技术特征摘要】
1.一种自下而上改进的视频动作分割网络,包括多阶段时间卷积网络,其中每个阶段由顺序连接的多层空洞一维卷积、残差连接和损失函数组成;其特征在于,所述空洞一维卷积之前还包括可分离和共享卷积;同时,在第一阶段中,残差连接后还包括自适应时间融合模块;所述自适应时间融合模块由:内核大小为1的一维卷积、修正线性单元激活函数、内核大小为3的一维卷积和S型激活函数顺序连接构成;所述自适应时间融合模块的输出与所述损失函数连接。2.根据权利要求1所述的视频动作分割网络,其特征在于,所述自适应时间融合模块由以下公式表达:o
n
=f
n
(o
n
‑1)H(x)=E(g(o1,o2,...,o
n
),n∈N)其中,x是所述多阶段时间卷积网络的最初输入信息,o0=x,o
n
表示第n层所述空洞一维卷积的输出,f
n
表示第n层的卷积操作;H代表自适应时间融合模块的输出结果,E代表自适应加权融合算子,g代表级联算子,N代表空洞一维卷积层的层数;所有尺度的时间特征(o1,o2,...,o
n
)的大小均为(P
×
Q),P表示特征通道数,Q表示帧数。3.根据权利要求2所述的视频动作分割网络,其特征在于,所述空洞一维卷积具有大小为k的滤波器w;其在位置i处的输出Z定义为:其中,f表示一维输入,r表示膨胀率;当r=1时,所述空洞一维卷积退化为标准的一维卷积;所述空洞一维卷积为在w的两个相邻权重之间插入r

1个零;其感受野为r*(k

1)+1;所述可分离和共享卷积的内核大小为(2r

1)。4.根据权利要求3所述的视频动作分割网络,其特征在于,所述可分离和共享的所有通道的卷积权重是共享的,其参数为与通道数无关的常数参数,大小设置为(2r

1)。5.根据权利要求1所述的视频动作分割网络,其特征在于,所述损失函数包括交叉熵损失以及平滑损失;所述损失函数与焦点损失函数融合为新的损失函数,通过重塑标准交叉熵损失来降低信息帧样本的权重,并增大模糊帧样本的权重,以将网络的训练快速聚焦到模糊帧上。6.根据权利要求5所述的视频动作分割网络,其特征在于,所述焦点损失函数形式如下:L
fl


α(1

y
t,c
)
γ
log(y
t,c
)其中,y
t,c
表示带有...

【专利技术属性】
技术研发人员:郑彩侠孔俊陈文河吕英华
申请(专利权)人:东北师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1