【技术实现步骤摘要】
基于自监督时空注意力网络的行为识别方法
[0001]本专利技术属于图像处理
,具体涉及到采用基于自监督时空注意力网络的行为识别方法。
技术介绍
[0002]基于Web数据来训练行为识别的模型公开了一种行为识别方法,通过应用教师网络对数据集进行处理来获得伪标签,并以低置信度过滤掉不相关的样本,采用一种联合训练策略来处理网络监督学习中多个数据源和格式之间的领域差距,从而获取识别结果。该方法存在特征提取时未有效区分关键信息和重要动作区域的问题,且采样速率过慢,导致动作之间的变化特征过于明显(判别性弱),采样速率过快,动作之间的变化特征不够明显(判别性强),有可能丢失特征信号,影响行为识别结果。
技术实现思路
[0003]本专利技术所要解决的技术问题在于克服上述现有技术的缺点,提供一种识别准确率高、识别速度快的基于自监督时空注意力网络的行为识别方法。
[0004]解决上述技术问题所采用的技术方案是由下属步骤组成:
[0005](1)处理数据集
[0006]使用公共数据集Kinetics< ...
【技术保护点】
【技术特征摘要】
1.一种基于自监督时空注意力网络的行为识别方法,其特征在于由下述步骤组成:(1)处理数据集使用公共数据集Kinetics
‑
400作为训练集V,UCF101作为测试集,V∈{v1,v2,
…
,v
t
},v
t
为视频第t时刻的帧,t∈{1,2,
…
,N},N是视频帧的总长、为有限正整数,将一段视频采样为视图A和视图B,A∈{x1,x2,
…
,x
A
},B∈{x1,x2,
…
,x
B
},其中C是特征通道的数量,G表示特征高度,W表示特征宽度,视图A采样为原视频90%的帧,视图B采样为原视频40%的帧;(2)构建行为识别网络行为识别网络由学生网络与教师网络并联构成,学生网络由多尺度特征提取模块与时空注意力模块串联构成,教师网络与学生网络结构相同,视图A通过教师网络与学生网络,视图B通过学生网络;所述的多尺度特征提取模块由残差模块1、残差模块2、残差模块3并联构成;所述的时空注意力模块由自注意力模块与空间注意力模块串联构成;(3)训练网络1)确定目标函数目标函数包括损失函数评价函数最高准确率T1和前五准确率T5,按下式确定损失函数数其中,f
TA
表示视图A输入到教师网络的值,f
SA
表示视图A输入到学生网络的值,f
SB
表示视图B输入到学生网络的值;按下式确定最高准确率T1:其中,TP表示正例预测正确的个数,FP表示负例预测错误的个数,FN表示正例预测错误的个数,TN表示负例预测正确的个数,TP与FP、FN、TN的和为总的样本数,TP与TN的和为预测正确的样本数,TP,FP,TN,FN∈N,N取值为0~101,且TP,FP,TN,FN不同时为0;按下式确定前五准确率T5:其中,A5表示所有正确标签包含在前五个分类概率中的个数;2)训练网络将训练集输入到行为识别网络中进行训练,训练集的视频帧尺寸大小调整为224
×
224,在训练过程中,数据批量为16,在Kinetics
‑
400数据集训练50个轮次,学习率为0.001,在40轮次学习率,衰减为0.0001,后10次的学习率衰减为0.00001,温度超参数τ设置为0.7,训练至损失函数收敛;对教师网络和学生网络进行前向传递和反向传播,更新两个网络的权重,学生网络的参数通过指数移动平均EMA更新权重m取值为有限正整数,按下式确定
学生网络权重学生网络权重学生网络权重其中w
t
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。