多尺度特征融合课堂行为检测方法与系统技术方案

技术编号:37802390 阅读:32 留言:0更新日期:2023-06-09 09:32
本发明专利技术公开了一种多尺度特征融合课堂行为检测方法与系统,该方法是基于改进YOLOv5检测模型实现学生课堂行为的精准检测,包括:1)构建学生课堂行为数据集,划分训练集、验证集和测试集,并对划分的数据进行标注和标签;2)对训练集进行数据增强;3)对训练集进行先验框的聚类;4)利用训练集训练改进YOLOv5检测模型;5)对改进YOLOv5检测模型前向传播中获得的预测结果进行解码操作;6)使用CIOU的非极大值抑制对预测框的重叠部分进行筛选,保留置信度最大的预测框;7)将获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息。通过本发明专利技术能帮助教师更加了解学生的课堂学习情况,从而改善课堂的教学质量,提高学生的学习效率,有助于推动智慧教育发展。有助于推动智慧教育发展。有助于推动智慧教育发展。

【技术实现步骤摘要】
多尺度特征融合课堂行为检测方法与系统


[0001]本专利技术涉及智慧教育、智能监控的
,尤其是指一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测方法与系统,可应用于学生课堂行为的实时监控检测及分析的学校和辅导机构。

技术介绍

[0002]随着深度学习的发展和科技的进步,人工智能渗透在各个领域的研究。在人工智能热潮的影响下,各行各业逐步趋向于人工智能化的研究与发展。如何将人工智能技术与课堂教学任务进行结合,提高课堂教学质量和效率,推动智慧教育的发展是未来教育行业的主旋律。提高学生在课堂上的表现质量尤其重要,通过人工智能的参与,智能识别学生的动作行为并对专注度进行评估打分,从而有针对性地提高学生在课堂上的表现质量。观察并评估学生在课堂上的表现质量非常有意义。如何更高效地识别和分析学生课堂行为已经成为了智慧教育的研究热点。
[0003]课堂行为分析旨在研究课堂中教师教学活动与学生学业发展的内在机制,帮助教师和学生反思自身课堂表现,从而促进课堂教学质量与的提升。传统的课堂教学行为分析大多是通过自我评价法、人工督导、课堂巡查等方法采集和分析数据,存在个人评价主观性较强、样本量小、费时费力等缺点,导致其可解释性、可扩展性较低。人工智能技术的普及为这些缺点的改善带来了契机。
[0004]利用人工智能技术对数据进行采集和分析,能更加全面和及时识别课堂行为,了解课堂教师教学与学生学习状态,为教学质量的提升提供了有力支持。

技术实现思路

[0005]本专利技术的第一目的在于克服现有技术的缺点与不足,提供一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测方法,主要利用注意力机制和特征增强融合对学生的课堂行为提取出局部特征,从而实现在视频时序上对学生在课堂上的表现给予识别,能够帮助教师更加了解学生的课堂学习情况,从而改善老师的教学质量,提高学生的学习效率,有助于推动智慧课堂的发展。
[0006]本专利技术的第二目的在于提供一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测系统。
[0007]本专利技术的第一目的通过下述技术方案实现:多尺度特征融合课堂行为检测方法,该方法是基于改进YOLOv5检测模型实现学生课堂行为的精准检测,该改进YOLOv5检测模型是对原来YOLOv5检测模型的主干网络模块、池化金字塔模块和预测模块都进行了改进,其中,对主干网络模块的改进是:使用CBAM注意力模块对主干网络提取的特征进行增强;对池化金字塔模块的改进是:对原来的池化金字塔引入CSPC结构,在保持感受野不变的情况下获得速度提升;对预测模块的改进是:在每个预测模块输出特征前增加一个多尺度泛化检测模块SCAM用于提高小目标检测的精度;
[0008]该多尺度特征融合课堂行为检测方法的具体实施包括以下步骤:
[0009]1)前期数据采集构建,通过采集多个校园课堂监控,获取的图片作为学生课堂行为的样本数据集,将样本数据集划分为训练集、验证集和测试集,并对划分的样本进行标注和数据标签;
[0010]2)根据学生课堂的行为特性对训练集中的图片进行数据增强处理,随机对训练集中的图片进行亮度调整、对比度调整和饱和度调整,对训练集中的图片进行随机裁剪、随机翻转镜像和Mosaic增强,扩充数据量,提高模型的泛化能力;
[0011]3)根据处理后的训练集的图片中学生的动作和位置目标的特点,使用基于IOU的k

means算法对学生课堂行为目标进行先验框的聚类,获得真实学生行为目标的9个聚类先验框;
[0012]4)将经步骤2)处理后的训练集中的图片输入到改进YOLOv5检测模型中进行模型训练,将步骤3)中获得的先验框的值作为改进YOLOv5检测模型的先验值,根据预设的训练迭代次数epoch数进行训练,保存训练时改进YOLOv5检测模型的模型参数,将验证集损失最小的模型参数作为改进YOLOv5检测模型的最佳模型参数;
[0013]5)改进YOLOv5检测模型加载步骤4)获得的最佳模型参数后输入测试集中的图片,对模型前向传播中获得的预测结果进行解码操作,获得所有预测框中检测学生课堂行为的置信度、检测类别概率、预测框的位置调整参数,筛选出置信度大于预设阈值的预测框进行保留;
[0014]6)对保留的预测框进行进一步的筛选,使用基于CIOU的非极大值抑制对预测框中的重叠框进行筛选,当重叠框中的CIOU值大于预设阈值时,只保留其中置信度大的预测框;
[0015]7)将最后获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息,从而完成学生课堂行为的检测。
[0016]进一步,在步骤1)中,数据采集以摄像机拍摄和监控录播的方式,采集学生在教室下做出不同的课堂行为,每个行为的动作视频持续采集10~20秒,通过不同拍摄角度下对每个行为随机抽取多帧图片,最终获取的图片作为学生课堂行为的样本数据集,通过labelimg标注工具对获得的具有学生课堂动作的图片进行标注,使用矩形框标注出图片中的学生和学生发出的动作位置,将标注的信息归类整合成训练标签数据。
[0017]进一步,在步骤2)中,针对密集人群复杂的课堂场景下,对训练集中的图片进行数据增强,对训练集中的图片的亮度、对比度、饱和度进行改变,以增加训练集的多样性影响;针对学生课堂行为的多样化特点,对训练集中的图片进行随机裁剪,Mosaic数据增强;针对课堂下多变的环境及噪声影响,使用随机翻转镜像的方式对训练集中的图片进行扩充。
[0018]进一步,在步骤3)中,输入训练标签数据至k

means算法中,设置n个聚类中心,从训练标签数据中随机选取n个先验框作为初始聚类中心,计算每个训练标签数据到当前已有聚类中心的欧式距离,将距离最短的训练标签数据归类至一个聚类簇,选取下一个聚类中心;重复上述步骤,直到所有聚类中心的值不再变化,当聚类中心的个数达到n时,获取最大迭代次数,将各个训练标签数据与最近的聚类中心划分为一类,最后得到9个不同尺寸的先验框。
[0019]进一步,在步骤4)中,所述改进YOLOv5检测模型的主干网络模块为CSPDarknet53,利用CSPDarknet53提取特征,主干网络模块读取输入的图像信息,进行5次下采样,获取不
同尺寸目标的特征信息,在经过主干网络的BottleNeckCSP后添加CBAM注意力模块,所述CBAM注意力模块由通道注意力模块CAM和空间注意力模块SAM串联组成;
[0020]CAM将输入的特征图分别经过全局最大池化和全局平均池化后,再分别通过两层全连接层,所得到的特征进行element

wise加法操作后经过激活函数sigmoid得到最终的通道注意力特征图,将输入的特征图与通道注意力特征图进行element

wise乘法操作得到CAM输出的特征图;其过程如下公式(1)所示:
[0021]CAM(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))...

【技术保护点】

【技术特征摘要】
1.多尺度特征融合课堂行为检测方法,其特征在于,该方法是基于改进YOLOv5检测模型实现学生课堂行为的精准检测,该改进YOLOv5检测模型是对原来YOLOv5检测模型的主干网络模块、池化金字塔模块和预测模块都进行了改进,其中,对主干网络模块的改进是:使用CBAM注意力模块对主干网络提取的特征进行增强;对池化金字塔模块的改进是:对原来的池化金字塔引入CSPC结构,在保持感受野不变的情况下获得速度提升;对预测模块的改进是:在每个预测模块输出特征前增加一个多尺度泛化检测模块SCAM用于提高小目标检测的精度;该多尺度特征融合课堂行为检测方法的具体实施包括以下步骤:1)前期数据采集构建,通过采集多个校园课堂监控,获取的图片作为学生课堂行为的样本数据集,将样本数据集划分为训练集、验证集和测试集,并对划分的样本进行标注和数据标签;2)根据学生课堂的行为特性对训练集中的图片进行数据增强处理,随机对训练集中的图片进行亮度调整、对比度调整和饱和度调整,对训练集中的图片进行随机裁剪、随机翻转镜像和Mosaic增强,扩充数据量,提高模型的泛化能力;3)根据处理后的训练集的图片中学生的动作和位置目标的特点,使用基于IOU的k

means算法对学生课堂行为目标进行先验框的聚类,获得真实学生行为目标的9个聚类先验框;4)将经步骤2)处理后的训练集中的图片输入到改进YOLOv5检测模型中进行模型训练,将步骤3)中获得的先验框的值作为改进YOLOv5检测模型的先验值,根据预设的训练迭代次数epoch进行训练,保存训练时改进YOLOv5检测模型的模型参数,将验证集损失最小的模型参数作为改进YOLOv5检测模型的最佳模型参数;5)改进YOLOv5检测模型加载步骤4)获得的最佳模型参数后输入测试集中的图片,对模型前向传播中获得的预测结果进行解码操作,获得所有预测框中检测学生课堂行为的置信度、检测类别概率、预测框的位置调整参数,筛选出置信度大于预设阈值的预测框进行保留;6)对保留的预测框进行进一步的筛选,使用基于CIOU的非极大值抑制对预测框中的重叠框进行筛选,当重叠框中的CIOU值大于预设阈值时,只保留其中置信度大的预测框;7)将最后获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息,从而完成学生课堂行为的检测。2.根据权利要求1所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤1)中,数据采集以摄像机拍摄和监控录播的方式,采集学生在教室下做出不同的课堂行为,每个行为的动作视频持续采集10~20秒,通过不同拍摄角度下对每个行为随机抽取多帧图片,最终获取的图片作为学生课堂行为的样本数据集,通过labelimg标注工具对获得的具有学生课堂动作的图片进行标注,使用矩形框标注出图片中的学生和学生发出的动作位置,将标注的信息归类整合成训练标签数据。3.根据权利要求2所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤2)中,针对密集人群复杂的课堂场景下,对训练集中的图片进行数据增强,对训练集中的图片的亮度、对比度、饱和度进行改变,以增加训练集的多样性影响;针对学生课堂行为的多样化特点,对训练集中的图片进行随机裁剪,Mosaic数据增强;针对课堂下多变的环境及噪声
影响,使用随机翻转镜像的方式对训练集中的图片进行扩充。4.根据权利要求3所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤3)中,输入训练标签数据至k

means算法中,设置n个聚类中心,从训练标签数据中随机选取n个先验框作为初始聚类中心,计算每个训练标签数据到当前已有聚类中心的欧式距离,将距离最短的训练标签数据归类至一个聚类簇,选取下一个聚类中心;重复上述步骤,直到所有聚类中心的值不再变化,当聚类中心的个数达到n时,获取最大迭代次数,将各个训练标签数据与最近的聚类中心划分为一类,最后得到9个不同尺寸的先验框。5.根据权利要求4所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤4)中,所述改进YOLOv5检测模型的主干网络模块为CSPDarknet53,利用CSPDarknet53提取特征,主干网络模块读取输入的图像信息,进行5次下采样,获取不同尺寸目标的特征信息,在经过主干网络的BottleNeckCSP后添加CBAM注意力模块,所述CBAM注意力模块由通道注意力模块CAM和空间注意力模块SAM串联组成;CAM将输入的特征图分别经过全局最大池化和全局平均池化后,再分别通过两层全连接层,所得到的特征进行element

wise加法操作后经过激活函数sigmoid得到最终的通道注意力特征图,将输入的特征图与通道注意力特征图进行element

wise乘法操作得到CAM输出的特征图;其过程如下公式(1)所示:CAM(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式中,CAM(F)表示经过CAM输出的特征图,F表示输入的特征图,MLP表示全连接层,AvgPool表示全局平均池化,MaxPool表示全局最大池化,σ表示sigmoid激活函数;SAM将输入的特征图经过基于通道的全局最大池化和全局平局池化后的特征图进行concat拼接操作,然后经过7
×
7的卷积层和sigmoid激活函数生成空间注意力特征图,与输入的特征图相乘后得到最终输出特征图,其过程如下公式(2)所示:式中,SAM(F)表示经过SAM输出的特征图,F表示输入的特征图,AvgPool表示全局平均池化,MaxPool表示全局最大池化,表示concat拼接操作,k7表示7
×
7卷积操作,σ表示sigmoid激活函数;所述改进YOLOv5检测模型的池化金字塔模块是将主干网络模块输出的特征图传入CSPC

SPPF池化金字塔,CSPC

SPPF池化金字塔共分为四层架构,其具体情况如下:第一层为串联的1
×
1卷积操作、3
×
3卷积操作和1
×
1卷积操作,用于提取输入特征图的尺寸和增强图像像素;第二层为SPPF空间池化金字塔,SPPF空间池化金字塔使用多级池化滑动窗口组成,滑动窗口由3个卷积核大小为5
×
5的全局最大池化卷积组成;第三层为串联的1
×
1卷积操作、3
×
3卷积操作和1
×
1卷积操作,用于将SPPF空间池化金字塔提取的特征图进行降维操作;第四层为CSPC特征增强,将主干网络模块输出的特征图跳跃连接后经过1
×
1卷积操作与第三层输出的特征图进行融合,使用CPSC结构...

【专利技术属性】
技术研发人员:龚汝洪杜振锋周晓清周燕曾凡智
申请(专利权)人:广东宜教通教育有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1