【技术实现步骤摘要】
基于智慧教室场景下学生课堂姿态行为的检测方法
[0001]本专利技术属于图像处理方法
,具体涉及基于智慧教室场景下学生课堂姿态行为的检测方法
。
技术介绍
[0002]智慧教育,带来了教育形式和学习方式的重大变革
。
在智慧教室场景下,学生课堂姿态智能检测是构建智能化课堂环境的重要环节
。
尽管当今目标检测方法层出不穷,但现有的目标检测方法并不能精确地检测出教室中学生的位置,对教室中密集的学生姿态的识别更是力不从心
。SwinTransformer
的横空出世,改善了密集场所下目标的检测精度
。
但在智慧教室场景下,学生呈现在图像里通常是密集的小目标,
SwinTransformer
网络对这类的小目标的特征提取并不充分,智慧教室场景下学生课堂姿态的误检率和漏检率仍然很高
。
技术实现思路
[0003]本专利技术的目的是提供基于智慧教室场景下学生课堂姿态行为的检测方法,能够在复杂背景和教室课堂学生密集环境下,实现对学生进行精准定位和对学生抬头和低头行为进行精确分类
。
[0004]本专利技术所采用的技术方案是,基于智慧教室场景下学生课堂姿态行为的检测方法,该方法使用具有特征感知注意力
(Feature Perception Attention,FPA)
的
Transformer(FPATransformer)
来对课堂上学生的抬头和低头行为进行检测分类 ...
【技术保护点】
【技术特征摘要】
1.
基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,具体为:步骤1,制作
SCB_dataset
训练数据集;步骤2,构建
FPA Transformer
中的
Backbone
模块,
Backbone
模块通过使用四个特征感知块来提取学生听课的抬头和低头行为特征得到相应的特征图;步骤3,搭建
FPA Transformer
中的特征感知金字塔模块,对步骤2提取得到的特征图进行特征融合;步骤4,设计
FPA Transformer
中的
Prediction Head
模块,对步骤3获取到的特征图上对学生的位置进行定位,并对学生抬头低头行为进行分类;步骤5,使用步骤1的
SCB_dateset
训练集训练由
Backbone
模块
、FPP
模块和
PredictionHead
模块组成的
FPA Transformer
,将训练生成的权重文件进行保存;步骤6,加载步骤5训练好的权重文件,将教室课堂图像输入到训练好的
FPA Transformer
中,得到最终网络的检测结果
。2.
根据权利要求1所述的基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,步骤1具体为:制作
SCB_dataset
训练数据集,具体为:制作
6000
张
640
×
640
×3大小的教室场景图像作为训练样本,对每张图像中学生听课的抬头和低头行为进行标记,将标记后的图像制作为
VOC
格式的
SCB_dataset
训练数据集
。3.
根据权利要求2所述的基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,步骤2具体按照以下步骤实施:步骤
2.1
,构建
Backbone
模块,
Backbone
模块包括有一个
Patch Partition
层
、
一个
Linear Embedding
层
、
三个
Patch Merging
层
、
四个
FPB
块;
Backbone
模块中的
Patch Partition
层对输入图像进行分块,再通过
Backbone
模块中的
Linear Embedding
层对每个像素的通道做线性变换,之后使用4个相同的
FPB
块对学生课堂行为特征进行提取,除第一个
FPB
块外,剩下的3个
FPB
块都需要通过
Patch Merging
层进行下采样;最后,
Backbone
模块输出是四个不同尺度学生行为信息的特征图;步骤
2.2
,在
Backbone
模块的
PatchPartition
层,对步骤1的图像
X
进行分块,每4个相邻的像素为一个
patch(X
i
)
,然后在通道方向将分块后的输入图像展平,得到图像
L1
;步骤
2.3
,将步骤
2.2
中得到的图像
L1
,通过
FPA Transformer
的
LinearEmbedding
层对每个像素的通道做线性变换,得到特征图
L2
;步骤
2.4
,构造
FPB
,每个
FPB
块结构都包含两个连续的
Swin Transformer Block
,但将
Swin Transformer Block
中的窗口多头自注意力用局部特征感知多头注意力替换,将步骤
2.3
中得到的特征图
L2
输入到第一个
FPB
块中来对学生听课抬头和低头行为特征进行提取,得到大小为
160
×
160
×
128
的特征图
feat1
;步骤
2.5
,将步骤
2.4
中得到的特征图
feat1
输入到第一个
PatchMerging
层进行下采样,特征图的宽和高减半
、
深度翻倍后,再输入第二个
FPB
块中,再对学生听课抬头和低头的特征进行提取,得到大小为
80
×
80
×
256
的特征图
feat2
;步骤
2.6
,将步骤
2.5
中得到的特征图
feat2
输入到第二个
PatchMerging
层进行下采样,特征图的宽和高减半
、
深度翻倍后,再输入第三个
FPB
块中,这里需堆叠3次来提取学生听课抬头和低头行为的特征,得到大小为
40
×
40
×
512
的特征图
feat3
;步骤
2.7
,将步骤
2.6
中得到的特征图
feat3
输入到第三个
PatchMerging
层进行下采样,
特征图的宽和高减半
、
深度翻倍后,再输入第四个
FPB
块中,提取学生听课抬头和低头行为的特征,得到大小为
20
×
20
×
1024
的特征图
feat4。4.
根据权利要求3所述的基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,步骤
2.4
中,计算局部特征感知多头注意力的方法为:首先,将特征图
L2
输入感知网络得到特征图通过得到向量和而向量
q
由特征图
L2
获得;最后,将
q、
和输入到多头自注意力中进行计算,最后得到输出特征图
Z
;其中,感知网络结构由两个卷积层构成,每个卷积层有
H
×
W
×
C
个卷积核,卷积核大小为3×3,其中
H
,
W
,
C
分别为特征图的高
、
宽和通道数;第一个卷积层用来获得特征图
L2
中每个元素的坐标位置偏移量,然后,根据位置偏移量由双线性插值计算出该元素的新像素值,最后,通过第二个卷积层得到特征图
5.
根据权利要求4所述的基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,步骤3具体按照以下步骤实施:步骤
3.1
,搭建
FPP
模块,对步骤2提取的特征图进行特征融合,将步骤
2.4
‑
2.7
中输出的特征图
feat1
,
feat2
,
feat3
,
feat4
输送到
FPP
模块中,
FPP
模块包括有三个
Conv2D
卷积层
、
三个
UpSampling2D
上采样层
、
六个
Concat、
六个
YOLOv5
中的
CSPLayer
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。