本发明专利技术公布了一种基于混合多尺度时序可分离卷积操作的视频行为识别方法,通过将原始视频抽取成图片序列,将图片序列分成多个间隔,每个间隔抽取一张图片组成图片子序列,对图片子序列进行特征提取,再对图片子序列特征进行分类,得到分类结果,作为视频内发生行为的类别;采用加入了混合多尺度时序可分离卷积的卷积神经网络模型作为学习器,提取图片子序列的语义特征,使用卷积神经网络模型中的全连接层对提取到的图片子序列特征进行分类。本发明专利技术方法用来解决视频中动作发生长短不同以及空间中不同语义特征具有不同时序变化尺度的问题,可应用于视频行为识别等方面的视频理解任务,能够高效地实现视频行为识别。
Video behavior recognition method based on separable convolution operation of mixed multiscale time series
【技术实现步骤摘要】
基于混合多尺度时序可分离卷积操作的视频行为识别方法
本专利技术属于机器视觉及深度学习
,涉及视频行为识别技术,尤其涉及一种使用混合多尺度时序深度可分离卷积的高效视频行为识别的方法。
技术介绍
视频行为识别的目的是,对于给定的一段视频,分析出视频中所发生的的动作类别,给出对应的标签。该任务可认为是视频分类任务的一种。对于后续进行其他视频内容理解的任务来说,视频分类任务是基础,所以有着很重要的作用。视频行为识别作为一项基础任务,广泛应用于人机交互,城市安全监控等场景。在对视频行为进行识别的过程中,现有方法采用神经网络进行特征提取。其主要分成三种:1)直接使用3D卷积神经单元进行特征提取,在每次卷积过程中,时空特征提取在时间维度和空间维度的计算是同时的。这导致参数量和计算量的大大提高。2)只使用2D卷积,提取每帧图片的特征,独立进行判断,最后结果取平均。这种方式虽然高效,却缺乏有效的时序建模能力,在需要强时序推理的数据集和任务上表现糟糕。3)将时序建模和空间建模分开进行,分别采用1D卷积和2D卷积进行建模,降低了3D卷积的计算量。这种方法同样也有缺点,首先绝大部分方法使用普通1D卷积,其参数量和计算量依然不小。其次,这些方法都采用固定尺度的1D卷积核,无法同时处理长时序和短时序动作。以上所述导致了现有方法难以在现实场景中落地,急需更高效的方法进行时空特征建模。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种基于混合多尺度时序深度可分离卷积操作的时空建模方法,用来解决视频中动作发生长短不同以及空间中不同语义特征具有不同时序变化尺度的问题,可应用于但不限于视频行为识别的视频理解任务,能够高效地实现视频行为识别。本专利技术将不同大小的深度可分离卷积融合在一个深度可分离卷积操作中,对不同通道的特征进行不同尺度的时序建模,用来解决视频中动作发生长短不同以及空间中不同语义特征具有不同时序变化尺度的问题。进一步,通过将该操作插入现有2D卷积神经网络中,可以让传统2D卷积神经网络具有高效的时空建模能力,在几乎不增加多余计算量的情况下极大程度提高了传统2D卷积神经网络在需要强时序推理的数据集和任务上的表现。本专利技术提供的技术方案是:一种基于混合多尺度时序可分离卷积操作的视频行为识别方法,通过将原始视频按照一定标准抽取成图片序列,将图片序列分成多个间隔,每个间隔抽取一张图片组成图片子序列,然后对图片子序列进行特征提取,再对图片子序列特征进行分类,得到分类结果,作为视频内发生行为的类别。其中为了提取图片子序列的特征,采用加入了混合多尺度时序可分离卷积的卷积神经网络模型作为学习器,使用卷积神经网络模型中的全连接层对提取到的图片子序列特征进行分类。具体包括如下步骤:1)视频图片抽帧。通过ffmpeg(https://www.ffmpeg.org/)对原始视频抽取为图片序列,作为每个视频的初始数据形式。根据视频原本的每秒帧数和图像大小,抽取出每个视频对应的图片序列。2)抽取图片子序列。根据1)中抽取出的图片序列,将每个不同时间长短的视频分成相同大小的T个序列间隔(segments),T为时间维度,其值表示每个视频选取的序列间隔的数量(segments),从这些序列间隔中抽取一张图组成图片子序列。抽取方式是:在训练过程中从每个序列间隔中随机抽取一张图片,组成图片子序列,作为一种时序数据增广方式。在测试过程中抽取每个序列间隔的中间帧图片。3)设计并建立混合多尺度时序深度可分离卷积操作(MixtedTemporalConvolution,MixTConv)。将步骤2)得到的图片子序列的特征维度表示为F∈R(B×T)×C×H×W,作为MixTConv操作的输入,其中B是批次维度,其值表示训练时的批次大小(batchsize),T为时间维度,其值表示每个视频选取的序列间隔的数量(segments),C为特征通道数量(channels),W为特征在空间上的宽度(weight),H为特征在空间上的高度(height)。首先将特征维度F重新排列(拉伸,reshape)为F∈R(B×H×W)×C×T,再将F在通道维度分成g组(g=4)。每组得到对于每组特征,采用g个不同卷积核大小的1D(一维)深度可分离卷积,作用于时间维度。每个深度可分离卷积的卷积核的大小为{k1,…,kg}。令Wm表示卷积核大小为km的1D深度可分离卷积核,其中m表示卷积核对应的分组,对于第m个组,通道数为Cm,其中m∈1,2,…,g。最后,进行深度可分离卷积的操作,表示如下:其中是在第t个时间子序列间隔和第i个通道的值,t∈{1,2,…,T},是第m个组的输出值。然后将每个组的结果在通道维度重新组合,表示为:其中,Z∈R(B×H×W)×C×T。最后,将Z重新排列(拉伸,reshape)为Zout∈R(B×T)×C×H×W,作为混合多尺度时序可分离卷积操作(MixTConv)的输出。4)将混合多尺度时序可分离卷积操作加入到2D(二维)卷积神经网络模型中;基础的2D卷积神经网络可以选择任意一2D骨架网络,在其中的每一个block内插入设计的混合多尺度时序可分离卷积模型的卷积层,使网络模型具有高效的时空建模能力。具体实施时,以2D骨架网络采用Resnet-50(https://arxiv.org/abs/1512.03385),将混合多尺度时序可分离卷积操作加入到Resnet-50的残差连接层和第一个1×1卷积层之间,记作混合时空块(MixedSpatiotemporalBlock,MSTBlock)。5)混合时空网络模型(MixedSpatiotemporalNetwork,MSTNet);将ResNet-50中所有残差块(residualblock)采用混合时空块MSTBlock,得到最终混合时空网络(MixedSpatiotemporalNetwork,MSTNet)。MSTNet的最后一个全连接层为标签分类层,神经元个数对应于数据集标签个数。最终,MSTNet的输出为:其中,T为时序间隔的数量,也就是图片子序列长度,是第i帧输出的特征向量。avg(·)为在时间维度取平均。6)训练MSTNet,得到训练好的MSTNet;61)数据增广;在训练MSTNet的过程中,首先使用不同的时间和空间维度的数据增广策略,在时间和空间维度上分别进行数据增广。在空间维度上做数据增广,采用包括但不限于TSN(TemporalSegmentNetwork,https://arxiv.org/pdf/1608.00859.pdf)增广方式。首先将图片尺寸的短边拉伸(resize)到256,长边按照原图比例拉伸,即如果原来图片大小比例是4:3,那么重新拉伸后长边为340,短边为256。然后采取四个角落抠图(cornercropping)以及尺寸抖动(scalejittering)的增广方式。角落抠图是从已经重新拉伸过本文档来自技高网...
【技术保护点】
1.一种基于混合多尺度时序可分离卷积操作的视频行为识别方法,其特征是,包括如下步骤:/n1)将原始视频抽取成图片序列;/n2)将图片序列分成多个间隔,每个间隔抽取一张图片组成图片子序列;对图片子序列进行特征提取,得到的图片子序列的特征维度表示为F∈R
【技术特征摘要】
1.一种基于混合多尺度时序可分离卷积操作的视频行为识别方法,其特征是,包括如下步骤:
1)将原始视频抽取成图片序列;
2)将图片序列分成多个间隔,每个间隔抽取一张图片组成图片子序列;对图片子序列进行特征提取,得到的图片子序列的特征维度表示为F∈R(B×T)×C×H×W,其中B是批次维度,其值表示训练时的批次大小;T为时间维度,其值表示每个视频选取的序列间隔的数量;C为特征通道数量;W为特征在空间上的宽度;H为特征在空间上的高度;
3)设计并建立混合多尺度时序深度可分离卷积操作MixTConv;将步骤2)得到的图片子序列的特征维度作为MixTConv操作的输入,采用加入混合多尺度时序可分离卷积操作的卷积神经网络模型作为学习器,提取得到图片子序列的语义特征;包括如下操作:
31)将特征维度F重新排列/拉伸为F∈R(B×H×W)×C×T,再将F在通道维度分成g组,每组得到特征
32)对于每组特征,采用g个不同卷积核大小的一维深度可分离卷积,作用于时间维度;每个深度可分离卷积的卷积核的大小为{k1,…,kg};
33)令Wm表示卷积核大小为km的一维深度可分离卷积核,其中m表示卷积核对应的分组;对于第m个组,通道数为Cm,其中m∈1,2,…,g;第m个组的输出值记作进行深度可分离卷积的操作,得到在第t个时间子序列间隔和第i个通道的值
34)将每个组的结果在通道维度重新组合,得到Z,Z∈R(B×H×W)×C×T;
35)将Z重新排列拉伸,得到Zout,Zout∈R(B×T)×C×H×W,作为混合多尺度时序可分离卷积操作的输出;
4)将混合多尺度时序可分离卷积操作加入到二维卷积神经网络模型的残差连接层和第一个1×1卷积层之间,记作混合时空块;
5)二维卷积神经网络模型的残差块均采用混合时空块,构建成混合时空网络MSTNet;MSTNet的最后一个全连接层为标签分类层,神经元个数对应于数据集标签个数;MSTNet的输出S表示为:
其中,T为时序间隔的数量,也就是图片子序列长度;是第i帧输出的特征向量;avg(·)表示在时间维度取平均;
6)训练MSTNet,得到训练好的MSTNet;包括如下操作:
61)数据增广:使用时间和空间维度的数据增广策略,在时间和空间维度上分别进行数据增广,得到增广后的数据;
62)再将时间维度T放在批次维度B中,网络模型的输入为I,得到输出为O∈RB×Class;其中Class为数据集中对应类别的数量;采用交叉熵损失函数计算预测类别和真实类别,得到误差,通过反向传播更新参数;
63)经过设定次数迭代训练后,保存结果最好的模型参数,作为最终模型训练好的参数,即得到训练好的混合时空网...
【专利技术属性】
技术研发人员:王勇涛,单开禹,汤帜,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。