【技术实现步骤摘要】
一种基于多模态数据的课堂认知投入识别方法和系统
[0001]本专利技术属于图像识别
、
图像分类
、
文本分类
、
文本识别
,具体涉及一种基于多模态数据的课堂认知投入识别方法,以期通过融合多模态数据中隐含的内隐与心理信息推断课堂认知投入,为自然状态下的学生学习和教师课堂干预等教育应用提供技术支撑,助力教育向精准化
、
个性化和智能化方向发展
。
技术介绍
[0002]人工智能
、
大数据等新兴信息技术与教育教学的深度融合,助推了智慧教育的蓬勃发展,课堂是教育教学的主阵地,既能支持开展多样化教学活动,又可包容差异较大的学生个体,是学生获取知识和掌握技能的重要场所
。
学生在课堂中常出现心不在焉
、
缺乏专注
、
投入不均等投入不足的现象,但是教师无法实时关注到每位学生的投入状态并实施干预,该问题对于新手教师来说更为突出
。
因此,监测学生的学习投入,为课堂情境中教师精准施策提供依据至关重要
。
认知投入是学习投入的基础性维度,因其内隐性极强而难以被直接建模和测量,现有研究多采用自我报告等传统方式对其评测,但这并不能契合认知投入的动态发展特性和体现出认知状态的全息内隐机制
。
在课堂教学过程中,创新课堂认知投入的评测方式,构建科学的评测框架来指导非侵入式采集多模态学习数据和全面评测学生认知投入状态是突破现阶段课堂认知投入评测研究内容 ...
【技术保护点】
【技术特征摘要】
1.
一种基于多模态数据的课堂认知投入识别方法,其特征在于,包括如下步骤:步骤1,从多模态数据角度出发,构建基于多模态数据的课堂认知投入感知数据库;步骤2,提取自然课堂中的多模态数据,进行课堂认知投入感知的多模态数据分析,基于多模态数据构建多维度的课堂认知投入表征概要模型,获得课堂认知投入的多维度表征;步骤3,基于学习者的多模态数据和课堂认知投入的多维度表征,采用深度学习的方法进行基于多模态数据的多维认知投入识别,最后输出不同模态数据的认知投入识别结果;步骤4,融合步骤3得到的每个模态的认知投入结果,然后自适应地调整不同模态数据识别结果的权重,根据学习者的认知投入问卷反馈进行课堂认知投入权重参数训练,感知学习者的整体课堂认知投入水平
。2.
如权利要求1所述的一种基于多模态数据的课堂认知投入识别方法,其特征在于:步骤2中多模态数据包括身体姿态
、
头部姿态
、
眼动变化
、
面部表情
、
面部单元
、
课堂音频和语音文本
。3.
如权利要求1所述的一种基于多模态数据的课堂认知投入识别方法,其特征在于:步骤2中从学习者的认知行为
、
认知情感和认知言语三个维度构建课堂认知投入表征概要模型;课堂认知投入表征概要模型的具体构建步骤如下;
(1)
课堂认知投入中的认知行为维度通过身体姿态
、
头部姿态
、
眼动变化模态数据进行综合表征,针对时刻
f
的课堂视频帧,对该时刻对应的图像进行向量化,将图像中的每一个像素点用
[0,9]
的数字表示,作为身体姿态
、
头部姿态
、
眼动变化模态数据的表征结果
A
;
(2)
课堂认知投入中的认知情感维度通过面部表情和面部单元模态数据进行表征,针对每一时刻的课堂视频帧,首先通过
Opencv
库进行人脸自动提取,将提取出来的人脸图像作为该时刻下认知情感表征依据,然后将彩色图像中的每一个像素点用
[0,9]
的数字表示,形成最终的表征结果
B
;
(3)
课堂认知投入中的认知言语维度通过课堂音频和语音文本模态数据进行量化表征,通过预训练好的词向量和含参数的词向量两种表示方法共同表征认知言语维度,表征结果为
C。4.
如权利要求3所述的一种基于多模态数据的课堂认知投入识别方法,其特征在于:针对身体姿态
、
头部姿态
、
眼动变化模态数据,采用
Yolov8
模型,挖掘学习者肢体动作中的变化特征,确定学习者的身体姿态
、
头部姿态
、
眼动变化等模态所映射出的认知行为信息;具体包括以下步骤:
(1)
数据预处理将输入身体姿态
、
头部姿态
、
眼动变化模态图像尺寸对齐为
640*640、
设置
RGB
图像
、
通道设置为
CHW
排列格式;
(2)Backbone
层对身体姿态
、
头部姿态
、
眼动变化模态数据进行特征提取,首先,连续使用两个3×3卷积降低4倍分辨率,形成的特征图通道数分别为
64、128
,然后,采用
c2f
模块,通过分支夸层链接,丰富模型的梯度流;
(3)Neck
层和
Head
层
将
Backbone
层不同阶段输出的特征直接送入了上采样操作,采用解耦头和
Anchor
‑
Free
的机制进行特征图组合,并对标注框进行卷积计算;
(4)
目标检测损失计算针对身体姿态
、
头部姿态
、
眼动变化模态数据的目标检测任务,损失计算过程包括正负样本分配策略和
Loss
计算,考虑到动态分配策略的优异性,采用任务对其策略,根据分类与回归的分数加权选择正样本
t
,计算如下:
t
=
s
α
×
u
β
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
其中,
s
α
是标注类别对应的带
α
参数的预测值,
u
β
表示所有学生的行为信息实际标注框
Y
与行为信息预测框之间带
β
参数的损失值,
Loss
计算包括分类损失和回归损失,分类损失采用
BCE Loss
计算方式,回归损失采用
Distribution Focal Loss
计算方式和
CIoU Loss
计算方式,最后将上述三种损失计算采用一定权重比例加权得到最后的损失函数;
1)
分类损失
CLS
值计算如下:其中,
M
表示课堂中的学生人数,
Y
i
是第
i
个学生的行为信息实际框,是第
i
个学生的行为信息预测框;
2)
回归损失
DFL
值和
CIL
值计算如下:
DFL(S
i
,S
i+1
)
=
‑
((Y
i+1
‑
Y)log(S
i
)+(Y
‑
Y
i
)log(S
i+1
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)CIL
=1‑
(u
β
‑
(loss(length)+loss(width)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
其中,
S
i
表示对第
i
个学生的肢体动作特征进行
Softmax
激活函数计算,将新的肢体动作特征值转换为范围在
[0,1]
和为1的概率分布,
loss(length)
表示所有学生的行为信息预测框与实际框
Y
在长度
length
上的损失值,
loss(width)
表示所有学生的行为信息预测框与实际框
Y
在宽度
width
上的损失值;最后,将上述三类损失
CLS、DFL、CIL
值进行融合加权,得到最终的目标损失函数
。5.
如权利要求3所述的一种基于多模态数据的课堂认知投入识别方法,其特征在于:针对面部表情和面部单...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。