一种基于松弛化散度函数知识蒸馏的视频异常行为识别方法技术

技术编号:37296035 阅读:15 留言:0更新日期:2023-04-21 22:42
本发明专利技术公开了一种基于松弛化散度函数知识蒸馏的视频异常行为识别方法,该方法使得教师网络和学生网络的输出可以更加松弛的匹配,以提高知识的蒸馏效果。具体实施方法为:首先从全部数据集中随机提取出连续的视频图片并进行预处理作为训练样本;然后送入本发明专利技术提出的教师网络中进行训练,得到网络的最优参数;然后利用教师网络的最优参数来蒸馏训练学生网络;由于教师网络和学生网络存在较大的容量差异,我们使用本发明专利技术提出的松弛化散度函数对两个网络的输出置信度进行匹配;然最后使用软损失和硬损失作为联合损失函数,对学生网络的误差进行反向传播,进而优化学生网络的参数,以达到最优。以达到最优。以达到最优。

【技术实现步骤摘要】
一种基于松弛化散度函数知识蒸馏的视频异常行为识别方法


[0001]本专利技术涉及深度学习与知识蒸馏领域,具体涉及一种基于松弛化散度函数知识蒸馏的视频异常行为识别方法。

技术介绍

[0002]现有的知识蒸馏方法侧重于基线设置,其中教师模型和训练策略不是那么强大,为了改善这些问题,《B.Heo,J.Kim,S.Yun,H.Park,N.Kwak,and J.Y.Choi.A comprehensive overhaul of feature distillation.In Proceedings of the IEEE/CVF International Conference on ComputerVision,[J]pages 1921

1930,2019.》提出通过多个中间层来提取信息,但需要额外的卷积来进行特征对齐,额外增加了模型复杂度,《TianY,Krishnan D,IsolaP.Contrastive Representation Distillation:arXiv,10.48550/arXiv.1910.10699[P].2019.》引入了一种传输成对关系的对比损失,但它需要图像的特征保存一个内存库,并产生额外计算成本,《Mirzadeh SI,Farajtabar M,Li A,et al.Improved Knowledge Distillation via Teacher Assistant[C]//2020:5191

5198.》建议通过增加一个中等模型规模的助教来减少教师和学生之间的差异,但无法使用较强模型作为教师模型。
[0003]本专利技术提出了一种基于松弛化散度函数知识蒸馏的视频异常行为识别方法,可以从一个更强的教师中更好地提取经验。根据经验可知,学生网络和一个较强的教师网络之间的预测差异可能会相当严重。因此,KL散度预测的精确匹配会干扰训练,使现有的方法表现不佳。在专利中方法中,我们简单地保留教师网络和学生网络的预测的关系,并提出了一种基于相关性的松弛化散度函数来明确地捕捉教师网络和学生网络的预测的关系。本专利技术在Tobacco factory和HMDB51数据集上的实验结果表明,本专利技术方法显著提高了模型的识别准确率,由于其他主流方法,证明了本专利技术方法的有效性。。

技术实现思路

[0004]本专利技术主要是克服现有技术中的不足之处,本专利技术的目的是提供一种基于深度学习理论,并将精简化神经网络模型在微小计算能力的边缘设备高效部署的方法。
[0005]为达到以上技术目的,本专利技术采用以下技术方案:
[0006]1、一种基于松弛化散度函数知识蒸馏的视频异常行为识别方法,其特征在于包括以下步骤:
[0007]步骤1、制作训练样本X,具体步骤如下:
[0008](1)从数据集中随机选取出n个帧数为f的视频样本X

,f∈(1,64];X

为c
×
f个a
×
b矩阵,a∈(224,1080);b∈(224,1080);c为视频图像的通道数量,c∈{1,3};
[0009](2)对n个帧数为f的视频样本X

进行尺寸变换得到变换尺寸视频样本X

,X

为c
×
f个w
×
h;w、h为固定值224;然后对X

进行最大最小值归一化处理得到归一化视频样本X
″′
,X
″′
为c
×
f个w
×
h矩阵;计算公式如下:
[0010][0011]式中x
″′
wh
代表矩阵X
″′
中的单个元素,x
″′
wh
∈(

1,1);x

wh
代表矩阵X
″′
中的单个元素,x

wh
∈(0,255);x
min
代表归一化的最小值,x
min


1;x
max
代表归一化的最大值,x
max
=1;
[0012](3)最后将n个归一化视频样本X
″′
组成一个集合X作为训练样本,X={X
″′1,X
″′2,X
″′3,

,X
″′
n
};训练样本X为n
×
c
×
f个w
×
h矩阵;n为训练样本X中归一化视频样本X
″′
的数量,n∈N;
[0013]步骤2、对训练样本X进行数据增强,得到增强样本具体步骤如下:
[0014](1)当第i轮训练轮次的随机概率q
i
大于触发概率p
i
时,q
i
=random(0,1);触发概率p
i
的计算公式为:
[0015][0016]式中p
i
为数据增强算法的第i轮触发概率,p
i
∈(0,1];e
m
代表最大训练轮次,e
m
∈N;e
i
代表当前第i轮训练轮次,e
i
∈(1,e
m
];算法对n个归一化视频样本X
″′
进行数据增强得到增强视频样本为c
×
f个w
×
h矩阵;的计算公式如下:
[0017][0018]式中,f为归一化视频样本X
″′
的帧数,Z
i
″′
;i={1,2,

,f},代表归一化视频样本X
″′
中第i帧图像,Z
i
″′
为c个w
×
h矩阵;M
i
;i={1,2,

,f},代表与归一化视频样本X
″′
中第i帧图像Z
i
″′
相乘的掩膜,M
i
为c个w
×
h矩阵;
[0019](2)对将n个增强视频样本组合得到增强样本增强算法的计算公式为:
[0020][0021]式中,q
i
为第i轮训练轮次的随机概率,q
i
=random(0,1);p
i
为增强算法在第i轮训练轮次的触发概率;X为训练样本,训练样本X为n
×
c
×
f个w
×
h矩阵;代表增强视频样本,增强视频样本为c
×
f个w
×
h矩阵,代表增强样本,为n个增强视频样本组成的集合,为n
×
c
×
f个w...

【技术保护点】

【技术特征摘要】
1.一种基于松弛化散度函数知识蒸馏的视频异常行为识别方法,其特征在于包括以下步骤:步骤1、制作训练样本X,具体步骤如下:(1)从数据集中随机选取出n个帧数为f的视频样本X

,f∈(1,64];X

为c
×
f个a
×
b矩阵,a∈(224,1080);b∈(224,1080);c为视频图像的通道数量,c∈{1,3};(2)对n个帧数为f的视频样本X

进行尺寸变换得到变换尺寸视频样本X

,X

为c
×
f个w
×
h;w、h为固定值224;然后对X

进行最大最小值归一化处理得到归一化视频样本X
″′
,X
″′
为c
×
f个w
×
h矩阵;计算公式如下:式中x

w

h
代表矩阵X
″′
中的单个元素,x

w

h
∈(

1,1);x

w

h
代表矩阵X
″′
中的单个元素,x

w

h
∈(0,255);x
min
代表归一化的最小值,x
min


1;x
max
代表归一化的最大值,x
max
=1;(3)最后将n个归一化视频样本X
″′
组成一个集合X作为训练样本,X={X1″


X2″′
,X3″′


,X

n

};训练样本X为n
×
c
×
f个w
×
h矩阵;n为训练样本X中归一化视频样本X
″′
的数量,n∈N;步骤2、对训练样本X进行数据增强,得到增强样本具体步骤如下:(1)当第i轮训练轮次的随机概率q
i
大于触发概率p
i
时,q
i
=random(0,1);触发概率p
i
的计算公式为:式中p
i
为数据增强算法的第i轮触发概率,p
i
∈(0,1];e
m
代表最大训练轮次,e
m
∈N;e
i
代表当前第i轮训练轮次,e
i
∈(1,e
m
];算法对n个归一化视频样本X
″′
进行数据增强得到增强视频样本为c
×
f个w
×
h矩阵;的计算公式如下:式中,f为归一化视频样本X
″′
的帧数,Z
i
″′
;i={1,2,

,f},代表归一化视频样本X
″′
中第i帧图像,Z
i
″′
为c个w
×
h矩阵;M
i
;i={1,2,

,f},代表与归一化视频样本X
″′
中第i帧图像Z
i
″′
相乘的掩膜,M
i
为c个w
×
h矩阵;(2)对将n个增强视频样本组合得到增强样本增强算法的计算公式为:式中,q
i
为第i轮训练轮次的随机概率,q
i
=random(0,1);p
i
为增强算法在第i轮训练轮次的触发概率;X为训练样本,训练样本X为n
×
c
×
f个w
×
h矩阵;代表增强视频样本,增强视频样本为c
×
f个w
×
h矩阵,代表增强样本,为n个增强视频样本组成的集
合,为n
×
c
×
f个w
×
h矩阵;步骤3、构建教师网络MSFP

NET,将增强样本送入教师网络MSFP

NET中进行训练,得到MSFP

NET准确率Acc最高的模型参数P
t
,具体步骤如下:(1)构建视频异常行为识别模型MSFP

NET,MSFP

NET由MSAI、MSFP和三维卷积构成,计算公式如下所示:MSFP

NET(X)=MSAI(MSFP(MSAI(Conv3×3×3(Conv1×1×1(Conv7×7×7(X))))))式中,Conv1×1×1(
·
)代表1
×1×
1卷积,Conv3×3×3(
·
)代表3
×3×
3卷积,Conv7×7×7(
·
)代表7
×7×
7卷积,MSFP为多尺度融合块,MSFP由多尺度的平均池化和1
×1×
1卷积组合而成,计算公式如下:式中GAP(
·
)代表全局池化,Conv1×1×1(
·
)代表核为1
×1×
1的卷积,N代MSFP的尺度数量,N=3;AP
k
×
k
(
·
)代表核为k
×
k
×
k的平均池化,k∈{3,5,7};MSAI代表多尺度注意力特征块,Inception由3
×
3卷积和1
×
1卷积构成,计算公式如下:MSAI(X)=3DInception(X+Conv1×1×1(MSA(Conv1×1×1(X))))式中3DInception代表三维多尺度特征提取块,3DInception由3
×3×
3卷积Conv3×3×3(
·
)和1
×1×
1卷积Conv1×1×1(
·
)构成,计算公式如下:3DInception=Concat(Conv1×1×1(X),Conv3×3×3(Conv1×1×1(X)),Conv3×3×3(Conv1×1×1(X)))式中,Concat(X1,X2,X3)代表将特征X1、X2、X3的矩阵特征进行顺序排列得到X
Cat
,X1、X2、X3为n
×
c
×
f个w
×
h矩阵;X
Cat
为n
×
c
×3×
f个w
×
h矩阵;MSA代表多尺度注意力模块,由多尺度的平均池化和卷积组合而成,计算公式如下:式中,DW_Conv5×5×5代表卷积核大小为5
×5×
5的深度可分离卷积,Scale
i
代表第i中尺度的卷积核的大小,计算公式如下:(2)将增强样本通过队列输入到视频异常行为识别模型MSFP

NET中,经MSFP

NET模型计算得到模型预测矩阵y
(t)
,计算公式如下:式中,预测矩阵y
(t)
为n
×
s矩阵,s代表增强样本的标签种类;Conv1×1×1(
·
)代表1
×1×
1卷积,Conv3×3×3(
·
)代表3
×3×
3卷积,Conv7×7×7(
·
)代表7
×7×
7卷积;
(3)采用误差反向传播,并以交叉熵损失函数来衡量真实值与模型预测矩阵y
(t)
的距离,并计算训练损失L
t
,L
t
∈(0,+∞),损失函数公式:通过增强样本的每次训练,使用随机梯度下降函数SGD使得损失值L
t
在MSFP

NET网络模型中反向传播,使得MSFP

NET第i轮训练的模型参数P
i
向负梯度方向进行随机变化,使用SGD更新模型参数的计算公式如下:式中P
i
代表AFG

NET第i轮训练的模型参数,式中P
i
‑1代表AFG

NET第i

1轮训练的模型参数,η代表SGD的优化步长,η∈(0,1);代表训练损失L对AFG

NET第i

1轮训练的模型参数P
i
‑1进行求导;(5)计算当前训练轮次e
i
中AFG

NET模型识别准确率Acc
i
,Acc
i
∈(0,1),并保存练轮次e
i
中AFG

NET模型P
i
,e
i
代表当前第i轮训练轮次,e
i
∈(1,e
m
];e
m
为最大训练轮次,e
m
∈N;式中,TP为模型预测正样本正确的数量,TN为模型预测负样本正确的数量,FP为模型预测正样本错误的数量,FN为模型预测负样本错误的数量;步骤4、构建学生网络AFG

NET,将训练样本X送入学生网络AFG

NET中进行训练,同时使用知识蒸馏技术,得到所有训练轮次中AFG

NET模型识别准确率Acc最优的网络参数P
s
,具体步骤如下:(1)构建视频异常行为识别模型AFG

NET,AFG

NET由AFG、miniMSFP、Inception和二维卷积构成,计算公式如下所示:AFG

NET(X)=Inception(miniMSFP(Inception(Conv3×3(Conv1×1(Conv7×7(AFG(X)))))))式中,Conv1×1(
·
)代表1
×
1卷积,Conv3...

【专利技术属性】
技术研发人员:罗仁泽谭亮林虹宇刘恒罗任权邓治林余泓李华督
申请(专利权)人:西南石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1