System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于头部姿态与全局信息融合的学生行为检测方法技术_技高网

一种基于头部姿态与全局信息融合的学生行为检测方法技术

技术编号:40344123 阅读:14 留言:0更新日期:2024-02-09 14:30
本发明专利技术属于图像处理与计算机视觉领域,涉及一种基于头部姿态与全局信息融合的学生行为检测方法,包括:获取待检测图像,对待检测图像进行预处理;采用粗糙特征提取模块对图像进行浅层特征提取,得到浅层大特征图;在浅层特征图上分别进行头部姿态特征提取以及精细特征提取,得到头部姿态特征向量以及高级语义特征序列;将二者输入到特征交互模块中进行融合,得到融合后的特征图;将融合特征输入到分类器中,得到学生行为识别结果;本发明专利技术针对教育场景下动作者数量多,分辨率低,遮挡严重的问题做了针对性设计,采集了真实教育场景下的数据进行训练,能有效实现在教育场景下的学生行为检测。

【技术实现步骤摘要】

本专利技术属于图像处理与计算机视觉领域,涉及一种基于头部姿态与全局信息融合的学生行为检测方法


技术介绍

1、随着互联网的迅速发展,存储设备与网络终端设备的更新,互联网信息量骤增,为深度学习的发展提供了庞大的数据基础。计算性能的提升为深度学习处理大量数据提供了保障。深度学习相关的的产业迅速发展,人工智能产品逐渐问世,极大促进了经济发展,解放生产力。教育场景下的质量评估和智慧教育也将因为深度学习的发展迎来变革。传统的教学质量评估依赖于督导巡查,主观判断教学质量,工作量大,且评判标准不一。而教室监控摄像头全天记录学生的行为活动,是最好的评判教育质量的数据源,结合深度学习方法对视频进行智能分析,不仅能对长时段的学生行为给出客观的评价,还能极大解放人力。因此,如何利用教育场景的监控视频,从中得出有价值的信息,是人工智能推动智慧教育发展的重要一环。

2、现有行为检测方法使用3d卷积网络提取视频帧中的空间和时间特征,使用现成的目标检测器对视频中的动作者定位,根据定位信息从时空特征中取出每个动作者的特征。由于教育场景下往往同时存在很多学生,导致每个动作者的像素点数很少,并且存在严重遮挡问题,大部分目标只有头部完整出现在视频中,使用一般方法提取动作者的特征往往很难辨别。因此,如何利用有限的信息建模学生动作,保证特征提取的有效性和可辩别性成为在教育场景下做行为检测的关键问题。


技术实现思路

1、为解决以上现有技术存在的问题,特别是教室场景下的肢体遮挡问题,本专利技术提出了一种基于头部姿态与全局信息融合的学生行为检测方法,该方法包括:获取待检测图像,对待检测图像进行预处理;将预处理后的图像输入到训练后的学生行为检测模型中,分别检测学生的全局姿态和头部姿态,融合两种信息得到检测结果;

2、对学生行为检测模型进行训练包括:

3、s1、获取原始数据集,对原始数据集中的图像进行预处理;

4、s2、将图像输入粗糙特征提取网络中进行初步提取特征,得到浅层特征图;

5、s3、将浅层特征图输入到头部姿态估计模块,得到人物头部姿态特征;

6、s4、采用精细特征提取模块对浅层特征图进行精细特征提取,得到高级语义特征;

7、s5、将高级语义特征与人物头部姿态特征输入到头部姿态-全局特征融合模块中得到融合头部与身体全局姿态信息的融合特征图;

8、s6、将融合特征输入到分类器中,得到学生行为识别结果;

9、s7、根据学生行为识别结果计算模型的损失函数;

10、s8、调整模型参数,当损失函数收敛时完成模型的训练。

11、优选的,对图像进行预处理包括:对图像进行初步筛查,并标注人物动作和头部姿态,得到检测目标的图像;对筛选出的图像进行图像增强和滤波处理。

12、优选的,采用粗糙特征提取模块对图像进行浅层特征提取包括:采用3d时空特征提取网络对图像进行特征提取,得到特征图;对特征图进行4倍下采样,得到具有粗糙特征的大特征图,表达式为:

13、fr=fr(fori)

14、其中,fr表示粗糙特征图,fr表示粗糙特征提取网络,fori表示处理好的图像数据。

15、优选的,将粗糙特征图送入头部姿态估计网络进行处理包括:从将浅层大特征图提取每个动作者的头部特征,表示为fheads=fr(fr)=fh1,fh2,…,fhn,其中,fr表示粗糙特征图,fhi表示第i个动作者的头部特征;将提取的n个动作者的头部特征通过头部姿态提取模块,对头部姿态建模,表示为fh′i=hhp(fhi),hhp()表示头部姿态特征提取模块。

16、优选的,头部姿态提取模块包括将输入的n个头部姿态特征fhi展平为长196的序列,在序列中加入cls token,并输入到自注意力网络对头部姿态建模,得到头部姿态的特征序列;自注意力网络包含自注意力层和多层感知机;头部姿态特征序列随后送入自适应映射层,输出大小为nx197xc的特征序列,c为通道维数;其中自适应映射层包含一个池化层和一个和线性映射层。

17、优选的,采用精细特征提取模块对浅层大特征图进行精细特征提取包括:采用roialign对大特征图进行特征提取,得到n个动作特征;将所有特征在空间维度上展平为196,得到的特征序列形状形状为n×196×c,其中c为通道维数;为序列加上cls token,得到特征图序列,其形状为n×197×c;采用加载了预训练权重的vision transformer多头自注意力模块对特征图序列进行运算,得到高级语义特征序列。

18、优选的,采用头部姿态-全局特征融合模块对高级语义特征和头部姿态特征进行融合包括:对全局高级语义特征序列提取n个动作者的cls token,大小为nx1xc,表示为fclsbi;将有头部姿态特征的cls token表示为fclshi;将头部姿态特征和全局特征的clstoken(fclshi,fbicls)送入自适应打分模块,包括两个c×c线性层,对每一个token,计算权重矩阵,其中权重矩阵代表了对特征patch的重要性分数;对两路特征的patch按照分数降序排列,取前50%的patch作为该支路的优势特征,送到另一支路作为query提供信息,得到融合了对向支路信息的两支路特征;经过数次特征提取以及融合,得到两支路的最终输出特征的cls token,对输出的所有的特征cls token取平均后送入线性层得到最终的预测。

19、进一步的,计算权重矩阵包括:

20、

21、

22、其中,wclsh,wbcls∈r1x(n+1)表示头部姿态与全局特征的cls token的注意力权重,d为通道数;wclshi,wclsbi∈r1×(n+1)为特征patch的重要性权重矩阵,代表了对特征patch的重要性分数。

23、优选的,整个网络的损失函数表达式为:

24、

25、其中,y是真实的标签值,是预测的概率值。

26、本专利技术的有益效果:

27、本专利技术采用两步特征提取方法,使用cnn+vit结合的网络。初步提取特征后,使用头部姿态网络提取目标的头部姿态信息,与进一步提取的全局高级语义信息融合,融合时本专利技术使用头部姿态-全局特征融合模块自适应的选择两支路的优势特征,实现了人物全局姿态信息和头部姿态信息的互补,有效利用了头部姿态信息辅助学生行为判断,提升了教室场景下学生行为检测的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,包括:获取待检测图像,对待检测图像进行预处理;将预处理后的图像输入到训练后的学生行为检测模型中,得到检测结果;其中学生行为检测模型包括行为检测网络和头部姿态估计网络;

2.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,对图像进行预处理包括:对图像进行初步筛查,并标注人物动作和头部姿态,得到检测目标的图像;对筛选出的图像进行图像增强和滤波处理。

3.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,采用粗糙特征提取模块对图像进行浅层特征提取包括:采用3D时空特征提取网络对图像进行特征提取,得到特征图;对特征图进行4倍下采样,得到具有粗糙特征的大特征图,表达式为:

4.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,将粗糙特征图送入头部姿态估计网络进行处理包括:从将浅层大特征图提取每个动作者的头部特征,表示为FHeads=fr(Fr)=FH1,FH2,…,FHN,其中,Fr表示粗糙特征图,FHi表示第i个动作者的头部特征;将提取的N个动作者的头部特征通过头部姿态提取模块,对头部姿态建模,表示为FH′i=HHP(FHi),HHP()表示头部姿态特征提取模块。

5.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,头部姿态提取模块包括将输入的N个头部姿态特征FHi展平为长196的序列,在序列中加入cls token,并输入到自注意力网络对头部姿态建模,得到头部姿态的特征序列;自注意力网络包含自注意力层和多层感知机;头部姿态特征序列随后送入自适应映射层,输出大小为Nx197xC的特征序列,C为通道维数;其中自适应映射层包含一个池化层和一个和线性映射层。

6.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,采用精细特征提取模块对浅层大特征图进行精细特征提取包括:采用RoIAlign对大特征图进行特征提取,得到N个动作特征;将所有特征在空间维度上展平为196,得到的特征序列形状形状为N×196×C,其中C为通道维数;为序列加上Cls Token,得到特征图序列,其形状为N×197×C;采用加载了预训练权重的vision transformer多头自注意力模块对特征图序列进行运算,得到高级语义特征序列。

7.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,步骤S5采用头部姿态-全局特征融合模块对高级语义特征和头部姿态特征进行融合包括:对全局高级语义特征序列提取N个动作者的cls token,大小为Nx1xC,表示为FclsBi;将有头部姿态特征的cls token表示为FclsHi;将头部姿态特征和全局特征的clstoken(FclsHi,FBicls)送入自适应打分模块,包括两个C×C线性层,对每一个token,计算权重矩阵,其中权重矩阵代表了对特征patch的重要性分数;对两路特征的patch按照分数降序排列,取前50%的patch作为该支路的优势特征,送到另一支路作为query提供信息,得到融合了对向支路信息的两支路特征;经过数次特征提取以及融合,得到两支路的最终输出特征的cls token,对输出的所有的特征cls token取平均后送入线性层得到最终的预测。

8.根据权利要求7所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,计算权重矩阵包括:

9.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,整个网络的损失函数表达式为:

...

【技术特征摘要】

1.一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,包括:获取待检测图像,对待检测图像进行预处理;将预处理后的图像输入到训练后的学生行为检测模型中,得到检测结果;其中学生行为检测模型包括行为检测网络和头部姿态估计网络;

2.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,对图像进行预处理包括:对图像进行初步筛查,并标注人物动作和头部姿态,得到检测目标的图像;对筛选出的图像进行图像增强和滤波处理。

3.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,采用粗糙特征提取模块对图像进行浅层特征提取包括:采用3d时空特征提取网络对图像进行特征提取,得到特征图;对特征图进行4倍下采样,得到具有粗糙特征的大特征图,表达式为:

4.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,将粗糙特征图送入头部姿态估计网络进行处理包括:从将浅层大特征图提取每个动作者的头部特征,表示为fheads=fr(fr)=fh1,fh2,…,fhn,其中,fr表示粗糙特征图,fhi表示第i个动作者的头部特征;将提取的n个动作者的头部特征通过头部姿态提取模块,对头部姿态建模,表示为fh′i=hhp(fhi),hhp()表示头部姿态特征提取模块。

5.根据权利要求1所述的一种基于头部姿态与全局信息融合的学生行为检测方法,其特征在于,头部姿态提取模块包括将输入的n个头部姿态特征fhi展平为长196的序列,在序列中加入cls token,并输入到自注意力网络对头部姿态建模,得到头部姿态的特征序列;自注意力网络包含自注意力层和多层感知机;头部姿态特征序列随后送入自适应映射层,输出大小为nx197xc的特征序列,c为通道维数;其中自适应映射层包含一个池化层...

【专利技术属性】
技术研发人员:高陈强陈睿昕朱常杰
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1