【技术实现步骤摘要】
全面特征捕捉型时间卷积网络、视频动作分割方法、计算机系统和介质
[0001]本专利技术属于视频理解与分析中的视频动作分割
,涉及一种全面特征捕捉型时间卷积网络的视频动作分割方法。
技术介绍
[0002]在大数据时代,视频凭借其广泛的应用性和丰富的表现能力成为十分重要的传播媒介,各个领域无时无刻不在使用视频传播与记录信息。视频理解已成为计算机视觉领域的研究热点,尤其是视频动作分割。动作分割任务适用于多种动作连续发生的细致场景,例如生产线上、视频监控等单一场景连续动作的检测与识别。专利《一种基于边界搜索智能体的时序动作片段分割方法》(公开号:CN111950393A),提出边界搜索智能体,生成动作单元所属动作片段的时序边界,结合动作发现网络,提升了时序动作片段分割的平均精度。专利《通过混合时域自适应的视频动作分割》(公开号:CN112528780A),公开了一种域自适应时间卷积网络,将动作标签分配给视频的帧,解决了繁琐的视频数据集密集标注问题。专利《一种基于混合时间卷积和循环网络的视频动作分割方法》(公开号:CN10742 ...
【技术保护点】
【技术特征摘要】
1.一种全面特征捕捉型时间卷积网络的视频动作分割方法,其特征在于,包括如下步骤:S1.对单个视频采样,获取视频帧序列集合;S2.视频帧序列集合输入特征提取网络,获取帧级特征;S3.对帧级特征使用通道调整卷积,得到第一特征矩阵;S4.将第一特征矩阵分别输入时间卷积网络的第一基本单元的感受野递增时间卷积和感受野递减时间卷积,分别提取特征后将两特征矩阵拼接;S5.将两特征矩阵拼接后的特征矩阵作为后一基本单元的感受野递增时间卷积和感受野递减时间卷积的输入,分别提取特征后将两特征矩阵拼接;S6.重复步骤S5直至最后一个基本单元的感受野递增时间卷积和感受野递减时间卷积分别提取特征后将两特征矩阵拼接,使用通道调整卷积获取第二特征矩阵,识别动作分类输出。2.如权利要求1所述的全面特征捕捉型时间卷积网络的视频动作分割方法,其特征在于,作为第一特征矩阵的帧特征集合其中T是输入视频的总帧数,m
t
是第t帧的特征向量,帧特征集合M包含每一视频帧的特征,对帧特征集合M使用通道调整卷积后得出特征集合将其输入第一个基本单元,其中表示第一个基本单元的输入特征中的第t帧特征向量。3.如权利要求4所述的全面特征捕捉型时间卷积网络的视频动作分割方法,其特征在于,所述的单元包含一个感受野递增时间卷积、一个感受野递减时间卷积和一个通道调整卷积;感受野递增时间卷积由多层空洞卷积组成,对特征集合X1使用感受野较小的第一层一维空洞卷积,密集提取视频特征,经过激活函数Relu和通道调整卷积后,为保持深度网络模型不退化,根据残差网络特性,将每一层空洞卷积的输出特征都与输入特征相加,再使用通道调整卷积得到第一层输出的特征序列X2:f1=D(R(w1X1+b1))
ꢀꢀꢀꢀꢀꢀꢀ
(1)其中,f1表示第一层空洞卷积计算,R(
·
)表示激活函数Relu,D(
·
)代表通道调整卷积,w1是第一层空洞卷积的权重矩阵,b1是第一层空洞卷积的偏置项,是第一层空洞卷积输出特征中的第t帧特征向量;将第一层空洞卷积的输出特征输入第二层一维空洞卷积,第二层空洞卷积的空洞率提升使得感受野增加,经过激活函数Relu、通道调整卷积和残差运算后,再使用通道调整卷积得到第二层空洞卷积的输出特征序列X3:f2=D{R(w2X2+b2)}
ꢀꢀꢀꢀꢀꢀꢀ
(3)其中,f2表示第二层空洞卷积计算,w2是第二层空洞卷积的权重矩阵,b2是第二层空洞
卷积的偏置项。是第二层空洞卷积输出特征中的第t帧特征向量;将第i
‑
1层空洞卷积的输出特征输入第i层一维空洞卷积,第i层空洞卷积输出为:f
i
=D{R(w
i
X
i
+b
i
)}
ꢀꢀꢀꢀꢀꢀ
(5)其中,f
i
表示第i层空洞卷积计算,w
i
是第i层空洞卷积的权重矩阵,b
i
是第i层空洞卷积的偏置项,是第i层空洞卷积输出特征中的第t帧特征向量;随着卷积层数的增加,卷积核的感受野逐渐增大,感受野递增时间卷积的感受野计算公式如下:P(i)=2
i+1
‑1ꢀꢀꢀꢀꢀꢀꢀ
(7)其中,i代表卷积层数,P(i)为第i层空洞卷积的感受野大小,经过多层空洞卷积的连续运算,得出任意一个基本单元中感受野递增时间卷积的输出特征序列其中k为基本单元个数,为第k个基本单元中的感受野递增时间卷积的输出...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。