基于时空分离卷积和非对称卷积的视频特征提取模型的建模方法技术

技术编号:37258979 阅读:23 留言:0更新日期:2023-04-20 23:34
本发明专利技术公开了一种基于时空分离卷积和非对称卷积的视频特征提取模型的建模方法,属于模式识别、机器视觉技术领域和视频处理技术领域,该方法包括:搭建C3D网络模型;将C3D网络的前四层卷积层转化为时空可分离卷积,将3D卷积明确分解为一个2D空间卷积和一个1D时间卷积的连续操作;对C3D网络的后四个卷积层进行改进以减少模型参数,将3D卷积改进为非对称卷积;构建基于时空分离卷积和非对称卷积的视频特征提取模型。本发明专利技术经实验表明,其优点是改进的模型在视频的特征提取方面效果更好,且对于模型参数也可以进行有效的压缩,具有较高的应用价值及推广价值。应用价值及推广价值。应用价值及推广价值。

【技术实现步骤摘要】
al.Learning Spatiotemporal Features with 3D Convolutional Networks[J].IEEE,2015.)C3D网络是一种很好的特征学习方法,它可以同时模拟视频中对象的外观和运动。由于C3D网络能直接提取时空特征,并且结构由3D卷积层和3D池化以及全连接层简单堆叠而成,所以结构比较简单,广泛用于视频的人体行为识别研究和视频特征提取任务。原始的C3D模型共有8层卷积核为3
×3×
3卷积层,每层卷积后跟有3D池化层,最后有两个全连接层以及一个softmax分类器。虽然C3D模型在视频的人体行为识别任务和特征提取任务中取得了不错的效果,但在实际应用中仍然会出现问题,由于原始C3D模型的网络结构不深,导致精度有待提升,对特征提取的还不够充分,且参数量较大,不利于实际应用中的模型迁移。

技术实现思路

[0007]本专利技术的目的在于实现一种基于时空分离卷积和非对称卷积的视频特征提取模型的建模方法
[0008]本专利技术提供的技术方案如下:
[0009]如附图1所示,本专利技术提供一种基于时空分离卷积和非对称卷积的视频特征提取模型的建模方法,其步骤包括:
[0010]1)搭建原始C3D网络模型,该模型包括八个卷积层Conv1a、Conv2a、Conv3a、Conv3b、Conv4a、Conv4b、Conv5a以及Conv5b,五个池化层和两个全连接层;
[0011]2)转化C3D网络的前四层3D卷积层为时空可分离卷积。将每一层3D卷积层分解一个2D空间卷积和一个1D时间卷积,Conv1a、Conv2a、Conv3a以及Conv3b转化后变为Conv1a、Conv1b、Conv2a、Conv2b、Conv3a、Conv3b、Conv3c以及Conv3d共八层卷积层,其中,2D空间卷积层为Conv1a、Conv2a、Conv3a以及Conv3c,1D时间卷积层为Conv1b、Conv2b、Conv3b以及Conv3d,转化后2D空间卷积层的卷积核由原来的3
×3×
3变为1
×3×
3,1D时间卷积层的卷积核由原来的3
×3×
3变为3
×1×
1,完成第一阶段的视频特征提取;
[0012]3)修改C3D网络的后四个卷积层Conv4a、Conv4b、Conv5a以及Conv5b为非对称卷积,其中,Conv4a与Conv4b的卷积核由原来的3
×3×
3分别转化为3
×1×
5与3
×5×
1,Conv5a与Conv5b的卷积核由原来的3
×3×
3分别转化为3
×1×
7与3
×7×
1,构成新的视频特征提取模型;
[0013]4)引入交叉熵损失函数对分类概率分布间的差异性进行度量,模型中的计算过程如下:
[0014]首先输入是size为(minibatch,C),其中,minibatch为类的批量大小,C为类别总数,输入size后损失函数按公式(1)计算:
[0015][0016]公式(1)中,x为各类别对应损失函数的数组,loss为类别对应损失值,j为类别个数,class为标签值,式(1)中的标签值class并不参与直接计算,而是作为一个索引,索引对象为实际类别。
[0017]进一步,得到损失函数后,通过公式(2)计算得到交叉熵的值,其中,p为概率分布期望输出,q为概率分布实际输出:
[0018][0019]由此计算得到各类别的交叉熵值,交叉熵值越小,两个概率分布就越接近,进而实现对输入的视频特征的分类任务。
[0020]本专利技术经实验表明,其优点是改进的模型在视频的特征提取方面效果更好,且对于模型参数也可以进行有效的压缩。
附图说明
[0021]图1:本专利技术基于时空分离卷积和非对称卷积的视频特征提取模型流程图;
[0022]图2:C3D网络结构;
[0023]图3:基于时空分离卷积和非对称卷积模型;
[0024]图4:3D卷积分解为(2+1)D卷积示意图;
[0025]图5:卷积的合并与分解示意图;其中(a)分解为较小卷积,将1个5
×
5的卷积核可以分解为2个3
×
3卷积核,由(b)分解为非对称卷积,将1个3
×
3的卷积核可以分解为1
×
3卷积核和3
×
1卷积核,一个对称卷积可以拆分为两个非对称卷积;
[0026]图6:采用本专利技术在UCF101数据集上的损失和准确率变化曲线;其中,(a)图为本专利技术与原始C3D模型在UCF101数据集上每一轮训练的损失变化曲线对比,(b)图为为本专利技术与原始C3D模型在UCF101数据集上每一轮训练的准确率变化曲线对比;
[0027]图7:采用本专利技术在HMDB51数据集上的损失和准确率变化曲线;其中,(a)图为本专利技术与原始C3D模型在HMDB51数据集上每一轮训练的损失变化曲线对比,(b)图为本专利技术与原始C3D模型在HMDB51数据集上每一轮训练的准确率变化曲线对比。
具体实施方式
[0028]下面结合附图,通过利用公共人体行为识别的UCF101数据集和HMDB51数据集进行实验,采用Adam优化参数,并在每个卷积层后加入BN层,加快网络的训练同时防止梯度爆炸与消失,并对本专利技术作进一步描述。
[0029]具体来说,本专利技术的方法包括下列步骤:
[0030]A.搭建原始C3D网络,如图2所示:
[0031]原始C3D网络的具体结构如下;
[0032]第一卷积层Conv1a,三维卷积核尺寸为3
×3×
3,步长为1,个数为64,padding为1
×1×
1,通道输入为3,通道输出为64;
[0033]第一池化层3DMaxpool,三维池化核尺寸为1
×2×
2,步长为1
×2×
2;
[0034]第二卷积层Conv2a,三维卷积核尺寸为3
×3×
3,步长为1,个数为128,padding为1
×1×
1,通道输入为64,通道输出为128;
[0035]第二池化层3DMaxpool,三维池化核尺寸为2
×2×
2,步长为2
×2×
2;
[0036]第三卷积层Conv3a,三维卷积核尺寸为3
×3×
3,步长为1,个数为256,padding为1
×1×
1,通道输入为128,通道输出为256;
[0037]第四卷积层Conv3b,三维卷积核尺寸为3
×3×
3,步长为1,个数为256,padding为1
×1×
1,通道输入为256,通道输出为256;
[0038]第三池化层3DMaxpool,三维池化核尺寸为2...

【技术保护点】

【技术特征摘要】
1.一种基于时空分离卷积和非对称卷积的视频特征提取模型的建模方法,其步骤包括:1)搭建C3D网络模型,该模型包括八个卷积层Conv1a、Conv2a、Conv3a、Conv3b、Conv4a、Conv4b、Conv5a以及Conv5b,五个池化层和两个全连接层;2)转化C3D网络的前四层3D卷积层为时空可分离卷积,即将每一层3D卷积层分解一个2D空间卷积和一个1D时间卷积,Conv1a、Conv2a、Conv3a以及Conv3b转化后变为Conv1a、Conv1b、Conv2a、Conv2b、Conv3a、Conv3b、Conv3c以及Conv3d共八层卷积层,其中,2D空间卷积层为Conv1a、Conv2a、Conv3a以及Conv3c,1D时间卷积层为Conv1b、Conv2b、Conv3b以及Conv3d,转化后2D空间卷积层的卷积核由原来的3
×3×
3变为1
×3×
3,1D时间卷积层的卷积核由原来的3
×3×
3变为3
×1×
1,完成第一阶段的视频特征提取;3)修改C3D网络的后四个卷积层Conv4a、Conv4b、Conv5a以及Conv5b为非对称卷积,其中,Conv4a与Conv4b的卷积核由原来的3
×3×
3分别转化为3
×1×
5与3
×5×
1,Conv5a与Conv5b的卷积核由原来的3
×3×
3分别转化为3
×1×
7与3
×7×
1,构成新的视频特征提取模型;4)输入视频数据集,使用交叉熵损失函数对分类概率分布间的差异性进行度量,模型中的计算过程如下:首先输入是size为(minibatch,C),其中,minibatch为类的批量大小,C为类别总数,输入size后损失函数按公式(1)计算:公式(1)中,x为各类别对应损失函数的数组,loss为类别对应损失值,j为类别个数,class为标签值,式(1)中的标签值class并不参与直接计算,而是作为一个索引,索引对象为实际类别。2.如权利要求1所述的建模方法,其特征在于,得到损失函数后,通过公式(2)计算...

【专利技术属性】
技术研发人员:邢素霞郭正于重重佟鑫
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1