基于多层级信息融合Transformer的教室场景身份识别方法技术

技术编号：37974729 阅读：18 留言：0更新日期：2023-06-30 09:50

本发明专利技术公开了一种基于多层级信息融合Transformer的教室场景身份识别方法，属于图像检测技术领域。本发明专利技术包括：对视频进行采样处理，再送入目标检测网络中，基于目标检测网络的输出得到人物候选框，基于多层级信息融合Transformer网络对任务候选框进行特征提取，得到人物候选框的关键特征信息并保存，基于多层级信息融合Transformer网络对目标人物的人物候选框进行特征提取，得到目标人物的关键特征信息；基于关键特征信息之间的相似度比较确定视频帧是否存在目标人物识。本发明专利技术能有效检测并识别特定人物，具有较好的鲁棒性，在稀疏人群和密集人群中的效果都表现良好。同时该模块能为智慧课堂建设提供有力的辅助。块能为智慧课堂建设提供有力的辅助。块能为智慧课堂建设提供有力的辅助。

全部详细技术资料下载

【技术实现步骤摘要】
基于多层级信息融合Transformer的教室场景身份识别方法

[0001]本专利技术属于图像检测
，具体涉及一种基于多层级信息融合Transformer的教室场景身份识别方法。

技术介绍

[0002]随着计算机视觉的发展，视觉技术广泛应用在人们的生活中，其中针对人物的教室场景识别是一个极为重要且有挑战性的课题。教室场景中包含着许多遮挡重叠，并且目标会在教室场景中自由移动，具有大幅度的自由性。且由于教室的特殊性，摄像头一般拍摄到的视频存在着一定的畸变，视频质量不佳。通过设计出教室场景检测识别算法，能够实现智慧课堂，后台自主签到，身份识别等智能功能，并且能够对课堂质量进行分析，更有利于教师把握教学风格以及教学方式。其中身份识别是一种特征相似度匹配的一个问题，然而在教室场景中，目标人物通常由高度自由性，且摄像头的角度也不统一，因此采集到的同一目标之间的特征差异性会较大，提升了身份识别的技术难度。

技术实现思路

[0003]本专利技术旨在提供一种能够在教室场景中实现实时检测以及身份识别方法，以提升教室场景的目...

【技术保护点】

【技术特征摘要】
1.基于多层级信息融合Transformer的教室场景身份识别方法，其特征在于，包括下列步骤：步骤1，采用等间隔采样方式对视频进行采样处理，并将采样处理后的各视频帧分别送入目标检测网络中，基于目标检测网络的输出得到人物候选框；步骤2，基于多层级信息融合Transformer网络对人物候选框进行特征提取，得到人物候选框的关键特征信息并保存；步骤3：基于多层级信息融合Transformer网络对目标人物的人物候选框进行特征提取，得到目标人物的关键特征信息；将目标人物的关键特征信息与步骤2保存的各人物候选框的关键特征信息进行相似度计算，若当前人物候选框的关键特征信息与目标人物的关键特征信息之间的相似度大于相似度阈值，则表示当前人物候选框所对应的视频帧包含目标人物，否则当前人物候选框所对应的视频帧不包含目标人物；得到各视频帧的目标人物识别结果。2.如权利要求1所述的方法，其特征在于，步骤1中，目标检测网络采用的是YoloV5检测网络，并基于密集人群Crowded
‑
human的样本图像进行训练。3.如权利要求1所述的方法，其特征在于，基于多层级信息融合Transformer网络具体为：通过一个四层的ViT(Vision Transformer)编码器提取人物候选框的四个阶段的特征图：通过第一层的ViT编码器得到特征图f1，再将特征图f1输入第二层ViT编码器得到特征图f2，接着将特征图f2输入第三层ViT编码器得到特征图f3，最后将特征图f3输入第四层ViT编码器得到特征图f4；所述多层级信息融合Transformer网络包括一个关注于局部区域特征的模块由6个局部卷积融合模块组成，以及一个关注于全局特征的模块由3个全局内容信息模块组成；其中，第一局部卷积融合模块的输入为特征图f1和f2，第二局部卷积融合模块的输入为第三局部卷积融合模块的输出和特征图f3，第三部卷积融合模块的输入为第二局部卷积融合模块的输出和特征图f4，并将第三局部卷积融合模块的输出记为特征图f
c1
；第四局部卷积融合模块的输入为第一和第二局部卷积融合模块的输出；第五局部卷积融合模块的输入为第三和第四局部卷积融合模块的输出，并将第五局部卷积融合模块的输出记为特征图f
c2
；第六局部卷积融合模块的输入为第四和第五局部卷积融合模块的输出，并将第六局部卷积融合模块的输出记为特征图f
c3
；第一全局内容信息模块的输入为特征图f1和f2分别经分块模块后输出的分块特征，并将特征图f1经分块模块后的分块特征作为第一全局内容信息模块的特征图低级特征I
s
，将特征图f2分块模块后的分块特征作为第一全局内容信息模块的特征图高级特征I
s+1
；第二全局内容信息模块的输入为第一全局内容信息模块的输出和特征图f3经分块模块后输出的分块特征，并将第一全局内容信息模块的输出作为第二全局内容信息模块的特征图低级特征I
s
，将特征图f3分块模块后的分块特征作为第二全局内容信息模块的特征图高级特征I
s+1
；第三全局内容信息模块的输入为第二全局内容信息模块的输出和特征图f4经分块模块后输出的分块特征，并将第二全局内容信息模块的输出作为第三全局内容信息模块的特征图低级特征I
s
，将特征图f4分块模块后的分块特征作为第三全局内容信息模块的特征图高级特征I
s+1
，以及将第三全局内容信息模块的输出记为特征图f
t
；
拼接特征图f
c1
、f
c...

【专利技术属性】
技术研发人员：许林峰，谭博文，吴庆波，潘力立，孟凡满，李宏亮，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人