基于多层级信息融合Transformer的教室场景身份识别方法技术

技术编号:37974729 阅读:14 留言:0更新日期:2023-06-30 09:50
本发明专利技术公开了一种基于多层级信息融合Transformer的教室场景身份识别方法,属于图像检测技术领域。本发明专利技术包括:对视频进行采样处理,再送入目标检测网络中,基于目标检测网络的输出得到人物候选框,基于多层级信息融合Transformer网络对任务候选框进行特征提取,得到人物候选框的关键特征信息并保存,基于多层级信息融合Transformer网络对目标人物的人物候选框进行特征提取,得到目标人物的关键特征信息;基于关键特征信息之间的相似度比较确定视频帧是否存在目标人物识。本发明专利技术能有效检测并识别特定人物,具有较好的鲁棒性,在稀疏人群和密集人群中的效果都表现良好。同时该模块能为智慧课堂建设提供有力的辅助。块能为智慧课堂建设提供有力的辅助。块能为智慧课堂建设提供有力的辅助。

【技术实现步骤摘要】
基于多层级信息融合Transformer的教室场景身份识别方法


[0001]本专利技术属于图像检测
,具体涉及一种基于多层级信息融合Transformer的教室场景身份识别方法。

技术介绍

[0002]随着计算机视觉的发展,视觉技术广泛应用在人们的生活中,其中针对人物的教室场景识别是一个极为重要且有挑战性的课题。教室场景中包含着许多遮挡重叠,并且目标会在教室场景中自由移动,具有大幅度的自由性。且由于教室的特殊性,摄像头一般拍摄到的视频存在着一定的畸变,视频质量不佳。通过设计出教室场景检测识别算法,能够实现智慧课堂,后台自主签到,身份识别等智能功能,并且能够对课堂质量进行分析,更有利于教师把握教学风格以及教学方式。其中身份识别是一种特征相似度匹配的一个问题,然而在教室场景中,目标人物通常由高度自由性,且摄像头的角度也不统一,因此采集到的同一目标之间的特征差异性会较大,提升了身份识别的技术难度。

技术实现思路

[0003]本专利技术旨在提供一种能够在教室场景中实现实时检测以及身份识别方法,以提升教室场景的目标识别性能,更好的辅助课堂的质量。
[0004]本专利技术采用的技术方案为:
[0005]基于多层级信息融合Transformer的教室场景身份识别方法,其包括以下步骤:
[0006]步骤1,采用等间隔采样方式对视频进行采样处理,并将采样处理后的各视频帧分别送入目标检测网络中,基于目标检测网络的输出得到人物候选框;
[0007]步骤2,基于多层级信息融合Transformer网络对人物候选框进行特征提取,得到人物候选框的关键特征信息并保存;
[0008]步骤3:基于多层级信息融合Transformer网络对目标人物的人物候选框进行特征提取,得到目标人物的关键特征信息;
[0009]将目标人物的关键特征信息与步骤2保存的各人物候选框的关键特征信息进行相似度计算,若当前人物候选框的关键特征信息与目标人物的关键特征信息之间的相似度大于相似度阈值,则表示当前人物候选框所对应的视频帧包含目标人物,否则当前人物候选框所对应的视频帧不包含目标人物;得到各视频帧的目标人物识别结果。
[0010]优选的,步骤1中,目标检测网络采用的是YoloV5检测网络,并基于密集人群Crowded

human的样本图像进行训练。
[0011]优选的,基于多层级信息融合Transformer网络具体为:
[0012]通过一个四层的ViT(Vision Transformer)编码器提取人物候选框的四个阶段的特征图:通过第一层的ViT编码器得到特征图f1,再将特征图f1输入第二层ViT编码器得到特征图f2,接着将特征图f2输入第三层ViT编码器得到特征图f3,最后将特征图f3输入第四层ViT编码器得到特征图f4;
[0013]所述多层级信息融合Transformer网络包括一个关注于局部区域特征的模块由6个局部卷积融合模块组成,以及一个关注于全局特征的模块由3个全局内容信息模块组成;
[0014]其中,第一局部卷积融合模块的输入为特征图f1和f2,第二局部卷积融合模块的输入为第三局部卷积融合模块的输出和特征图f3,第三部卷积融合模块的输入为第二局部卷积融合模块的输出和特征图f4,并将第三局部卷积融合模块的输出记为特征图f
c1
;第四局部卷积融合模块的输入为第一和第二局部卷积融合模块的输出;第五局部卷积融合模块的输入为第三和第四局部卷积融合模块的输出,并将第五局部卷积融合模块的输出记为特征图f
c2
;第六局部卷积融合模块的输入为第四和第五局部卷积融合模块的输出,并将第六局部卷积融合模块的输出记为特征图f
c3

[0015]第一全局内容信息模块的输入为特征图f1和f2分别经分块模块后输出的分块特征,并将特征图f1经分块模块后的分块特征作为第一全局内容信息模块的特征图低级特征I
s
,将特征图f2分块模块后的分块特征作为第一全局内容信息模块的特征图高级特征I
s+1
;第二全局内容信息模块的输入为第一全局内容信息模块的输出和特征图f3经分块模块后输出的分块特征,并将第一全局内容信息模块的输出作为第二全局内容信息模块的特征图低级特征I
s
,将特征图f3分块模块后的分块特征作为第二全局内容信息模块的特征图高级特征I
s+1
;第三全局内容信息模块的输入为第二全局内容信息模块的输出和特征图f4经分块模块后输出的分块特征,并将第二全局内容信息模块的输出作为第三全局内容信息模块的特征图低级特征I
s
,将特征图f4分块模块后的分块特征作为第三全局内容信息模块的特征图高级特征I
s+1
,以及将第三全局内容信息模块的输出记为特征图f
t

[0016]拼接特征图f
c1
、f
c2
、f
c3
、f4和f
t
,得到多层级信息融合Transformer网络的输出特征向量,从而得到人物候选框的关键特征信息,以及目标人物的关键特征信息;
[0017]所述局部卷积融合模块包括两路卷积块,两路卷积块的输出特征图经拼接层后再送入一个卷积块,得到局部卷积融合模块的输出特征图,其中,卷积块依次包括卷积操作、批归一化操作和激活映射操作;
[0018]所述全局内容信息模块的处理具体为:
[0019]对低级特征I
s
进行通道维度和时空维度的注意力加强,得到加强后的特征图F
s

[0020]特征图F
s
依次经过一个卷积块和一层卷积层得到特征图K;
[0021]通过sofimax函数对特征进行归一化,并通过提取其通道维度的第0维作为该特征的主要表征,得到主要特征θ(K);
[0022]将高级特征I
s+1
经过一层卷积层W
q
,得到特征图W
q
(I
s+1
);
[0023]将主要特征θ(K)和特征图W
q
(I
s+1
)相乘,再送入全局池化层得到特征图K
fuse

[0024]将高级特征I
s+1
经过一层卷积层W
q
,得到特征图W
q
(I
s+1
);通过Hadamard乘积对特征图K
fuse
和W
q
(I
s+1
)进行融合,得到关系矩阵f;
[0025]将高级特征I
s+1
分别经过两个卷积模块,得到特征图V
s
和V
c
,将特征图V
s
与f作内积后送入结构增强模块进行结构信息增强,得到结构增强后的特征图VF
s...

【技术保护点】

【技术特征摘要】
1.基于多层级信息融合Transformer的教室场景身份识别方法,其特征在于,包括下列步骤:步骤1,采用等间隔采样方式对视频进行采样处理,并将采样处理后的各视频帧分别送入目标检测网络中,基于目标检测网络的输出得到人物候选框;步骤2,基于多层级信息融合Transformer网络对人物候选框进行特征提取,得到人物候选框的关键特征信息并保存;步骤3:基于多层级信息融合Transformer网络对目标人物的人物候选框进行特征提取,得到目标人物的关键特征信息;将目标人物的关键特征信息与步骤2保存的各人物候选框的关键特征信息进行相似度计算,若当前人物候选框的关键特征信息与目标人物的关键特征信息之间的相似度大于相似度阈值,则表示当前人物候选框所对应的视频帧包含目标人物,否则当前人物候选框所对应的视频帧不包含目标人物;得到各视频帧的目标人物识别结果。2.如权利要求1所述的方法,其特征在于,步骤1中,目标检测网络采用的是YoloV5检测网络,并基于密集人群Crowded

human的样本图像进行训练。3.如权利要求1所述的方法,其特征在于,基于多层级信息融合Transformer网络具体为:通过一个四层的ViT(Vision Transformer)编码器提取人物候选框的四个阶段的特征图:通过第一层的ViT编码器得到特征图f1,再将特征图f1输入第二层ViT编码器得到特征图f2,接着将特征图f2输入第三层ViT编码器得到特征图f3,最后将特征图f3输入第四层ViT编码器得到特征图f4;所述多层级信息融合Transformer网络包括一个关注于局部区域特征的模块由6个局部卷积融合模块组成,以及一个关注于全局特征的模块由3个全局内容信息模块组成;其中,第一局部卷积融合模块的输入为特征图f1和f2,第二局部卷积融合模块的输入为第三局部卷积融合模块的输出和特征图f3,第三部卷积融合模块的输入为第二局部卷积融合模块的输出和特征图f4,并将第三局部卷积融合模块的输出记为特征图f
c1
;第四局部卷积融合模块的输入为第一和第二局部卷积融合模块的输出;第五局部卷积融合模块的输入为第三和第四局部卷积融合模块的输出,并将第五局部卷积融合模块的输出记为特征图f
c2
;第六局部卷积融合模块的输入为第四和第五局部卷积融合模块的输出,并将第六局部卷积融合模块的输出记为特征图f
c3
;第一全局内容信息模块的输入为特征图f1和f2分别经分块模块后输出的分块特征,并将特征图f1经分块模块后的分块特征作为第一全局内容信息模块的特征图低级特征I
s
,将特征图f2分块模块后的分块特征作为第一全局内容信息模块的特征图高级特征I
s+1
;第二全局内容信息模块的输入为第一全局内容信息模块的输出和特征图f3经分块模块后输出的分块特征,并将第一全局内容信息模块的输出作为第二全局内容信息模块的特征图低级特征I
s
,将特征图f3分块模块后的分块特征作为第二全局内容信息模块的特征图高级特征I
s+1
;第三全局内容信息模块的输入为第二全局内容信息模块的输出和特征图f4经分块模块后输出的分块特征,并将第二全局内容信息模块的输出作为第三全局内容信息模块的特征图低级特征I
s
,将特征图f4分块模块后的分块特征作为第三全局内容信息模块的特征图高级特征I
s+1
,以及将第三全局内容信息模块的输出记为特征图f
t

拼接特征图f
c1
、f
c...

【专利技术属性】
技术研发人员:许林峰谭博文吴庆波潘力立孟凡满李宏亮
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1