一种基于多模态数据的课堂认知投入识别方法和系统技术方案

技术编号:39803000 阅读:12 留言:0更新日期:2023-12-22 02:34
本发明专利技术公开了一种基于多模态数据的课堂认知投入识别方法和系统,首先从多模态数据中挖掘认知投入的关联视觉线索,构建包含认知行为

【技术实现步骤摘要】
一种基于多模态数据的课堂认知投入识别方法和系统


[0001]本专利技术属于图像识别

图像分类

文本分类

文本识别
,具体涉及一种基于多模态数据的课堂认知投入识别方法,以期通过融合多模态数据中隐含的内隐与心理信息推断课堂认知投入,为自然状态下的学生学习和教师课堂干预等教育应用提供技术支撑,助力教育向精准化

个性化和智能化方向发展


技术介绍

[0002]人工智能

大数据等新兴信息技术与教育教学的深度融合,助推了智慧教育的蓬勃发展,课堂是教育教学的主阵地,既能支持开展多样化教学活动,又可包容差异较大的学生个体,是学生获取知识和掌握技能的重要场所

学生在课堂中常出现心不在焉

缺乏专注

投入不均等投入不足的现象,但是教师无法实时关注到每位学生的投入状态并实施干预,该问题对于新手教师来说更为突出

因此,监测学生的学习投入,为课堂情境中教师精准施策提供依据至关重要

认知投入是学习投入的基础性维度,因其内隐性极强而难以被直接建模和测量,现有研究多采用自我报告等传统方式对其评测,但这并不能契合认知投入的动态发展特性和体现出认知状态的全息内隐机制

在课堂教学过程中,创新课堂认知投入的评测方式,构建科学的评测框架来指导非侵入式采集多模态学习数据和全面评测学生认知投入状态是突破现阶段课堂认知投入评测研究内容片面浅层

评测方法侵扰性强等问题的关键

[0003]目前,常见的认知投入测量方法包括人工观察

视频录像

自我报告

访谈

教师打分

经验抽样

生理测量

文本编码等

由于课堂观察和访谈法均存在费时耗力的缺陷,现有研究通常将其作为辅助方法来评测认知状态

考虑到认知投入的心理特质,研究者通常采用自我报告法对其进行评测,常见的量表有
JES
量表
、SCCEI
量表等

这类方法对情境的要求相对较低,能广泛适用于不同的课堂情境,也常与经验抽样

教师打分等其他方法协同使用

生理测量的方法常见于实验室情境,但其侵入性强

设备成本高等局限难以满足课堂情境下的认知投入评测需求

视频录像为面向课堂情境的认知投入数据采集提供了便利,基于视觉线索的表征方法广受欢迎,该方法常采用教室角落里的摄像机来直接录制学生的脸部

上半身画面以及课堂声音

这类方法与在线情境中采集的数据不同,它的外显形式比文本

点击流

时间戳等信息更丰富,能捕捉到学生的认知时序变化特征,也对包含个体

师生

生生等复杂交互编码提出了更高的要求,需要从更广泛的洞察角度捕捉更多认知信息

[0004]综上所述,课堂认知投入自动感知是智慧教育发展的重要方向

虽然,目前已有相关研究利用表情

体态等视觉线索初步探索了课堂认知投入感知,但是在认知投入的多维细粒度表征

内隐动态投入特征提取,以及多粒度投入识别等方面还存在困难

[0005]因此,本专利技术立足于研究内容,设计一种基于多模态数据的课堂认知投入识别方法实现课堂认知投入的自动感知,为精准识别与感知在课堂认知投入提供技术支撑


技术实现思路

[0006]本专利技术针对当前课堂认知投入的多维细粒度表征

内隐动态投入特征提取以及多粒度投入识别等问题,从多模态数据入手,设计基于多模态数据的课堂认知投入智能识别方法评估学习者的认知投入状态

本专利技术提供了一种基于多模态数据的课堂认知投入识别方法,为非接触

非侵扰式课堂认知投入自动感知提供支撑

[0007]本专利技术提供了一种基于多模态数据的课堂认知投入识别方法,包括如下步骤:
[0008]步骤1,从多模态数据角度出发,构建基于多模态数据的课堂认知投入感知数据库;
[0009]步骤2,提取自然课堂中的多模态数据,进行课堂认知投入感知的多模态数据分析,基于多模态数据构建多维度的课堂认知投入表征概要模型;
[0010]步骤3,基于学习者的多模态数据和课堂认知投入的多维度表征,采用深度学习的方法进行基于多模态数据的多维认知投入识别,最后输出不同模态数据的认知投入识别结果;
[0011]步骤4,融合步骤3得到的每个模态的认知投入结果,然后自适应地调整不同模态数据识别结果的权重,根据学习者的认知投入问卷反馈进行课堂认知投入权重参数训练,感知学习者的整体课堂认知投入水平

[0012]进一步的,多模态数据包括身体姿态

头部姿态

眼动变化

面部表情

面部单元

课堂音频和语音文本

[0013]进一步的,步骤2中以多模态数据为基础,挖掘各模态数据的特征,从而将多模态数据与多维度课堂认知投入表征关联起来,进而确定课堂认知投入在某一模态下的表现情况;
[0014]进一步的,针对身体姿态

头部姿态

眼动变化模态数据及步骤3中的认知行为维度的表征,采用
Yolov8
模型,挖掘学习者身体姿态

头部姿态

眼动变化中的变化特征,确定学习者的身体姿态等所映射出的认知行为信息

[0015](1)
数据预处理
[0016]将输入身体姿态

头部姿态

眼动变化模态图像尺寸对齐为
640*640、
设置
RGB
图像

通道设置为
CHW
排列格式等

[0017](2)Backbone

[0018]对身体姿态

头部姿态

眼动变化模态数据进行特征提取,首先,连续使用两个3×3卷积降低4倍分辨率,形成的特征图通道数分别为
64、128。
然后,采用
c2f
模块,通过分支夸层链接,丰富模型的梯度流

[0019](3)Neck
层和
Head

[0020]将
Backbone
层不同阶段输出的特征直接送入了上采样操作,采用解耦头本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多模态数据的课堂认知投入识别方法,其特征在于,包括如下步骤:步骤1,从多模态数据角度出发,构建基于多模态数据的课堂认知投入感知数据库;步骤2,提取自然课堂中的多模态数据,进行课堂认知投入感知的多模态数据分析,基于多模态数据构建多维度的课堂认知投入表征概要模型,获得课堂认知投入的多维度表征;步骤3,基于学习者的多模态数据和课堂认知投入的多维度表征,采用深度学习的方法进行基于多模态数据的多维认知投入识别,最后输出不同模态数据的认知投入识别结果;步骤4,融合步骤3得到的每个模态的认知投入结果,然后自适应地调整不同模态数据识别结果的权重,根据学习者的认知投入问卷反馈进行课堂认知投入权重参数训练,感知学习者的整体课堂认知投入水平
。2.
如权利要求1所述的一种基于多模态数据的课堂认知投入识别方法,其特征在于:步骤2中多模态数据包括身体姿态

头部姿态

眼动变化

面部表情

面部单元

课堂音频和语音文本
。3.
如权利要求1所述的一种基于多模态数据的课堂认知投入识别方法,其特征在于:步骤2中从学习者的认知行为

认知情感和认知言语三个维度构建课堂认知投入表征概要模型;课堂认知投入表征概要模型的具体构建步骤如下;
(1)
课堂认知投入中的认知行为维度通过身体姿态

头部姿态

眼动变化模态数据进行综合表征,针对时刻
f
的课堂视频帧,对该时刻对应的图像进行向量化,将图像中的每一个像素点用
[0,9]
的数字表示,作为身体姿态

头部姿态

眼动变化模态数据的表征结果
A

(2)
课堂认知投入中的认知情感维度通过面部表情和面部单元模态数据进行表征,针对每一时刻的课堂视频帧,首先通过
Opencv
库进行人脸自动提取,将提取出来的人脸图像作为该时刻下认知情感表征依据,然后将彩色图像中的每一个像素点用
[0,9]
的数字表示,形成最终的表征结果
B

(3)
课堂认知投入中的认知言语维度通过课堂音频和语音文本模态数据进行量化表征,通过预训练好的词向量和含参数的词向量两种表示方法共同表征认知言语维度,表征结果为
C。4.
如权利要求3所述的一种基于多模态数据的课堂认知投入识别方法,其特征在于:针对身体姿态

头部姿态

眼动变化模态数据,采用
Yolov8
模型,挖掘学习者肢体动作中的变化特征,确定学习者的身体姿态

头部姿态

眼动变化等模态所映射出的认知行为信息;具体包括以下步骤:
(1)
数据预处理将输入身体姿态

头部姿态

眼动变化模态图像尺寸对齐为
640*640、
设置
RGB
图像

通道设置为
CHW
排列格式;
(2)Backbone
层对身体姿态

头部姿态

眼动变化模态数据进行特征提取,首先,连续使用两个3×3卷积降低4倍分辨率,形成的特征图通道数分别为
64、128
,然后,采用
c2f
模块,通过分支夸层链接,丰富模型的梯度流;
(3)Neck
层和
Head


Backbone
层不同阶段输出的特征直接送入了上采样操作,采用解耦头和
Anchor

Free
的机制进行特征图组合,并对标注框进行卷积计算;
(4)
目标检测损失计算针对身体姿态

头部姿态

眼动变化模态数据的目标检测任务,损失计算过程包括正负样本分配策略和
Loss
计算,考虑到动态分配策略的优异性,采用任务对其策略,根据分类与回归的分数加权选择正样本
t
,计算如下:
t

s
α
×
u
β
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
其中,
s
α
是标注类别对应的带
α
参数的预测值,
u
β
表示所有学生的行为信息实际标注框
Y
与行为信息预测框之间带
β
参数的损失值,
Loss
计算包括分类损失和回归损失,分类损失采用
BCE Loss
计算方式,回归损失采用
Distribution Focal Loss
计算方式和
CIoU Loss
计算方式,最后将上述三种损失计算采用一定权重比例加权得到最后的损失函数;
1)
分类损失
CLS
值计算如下:其中,
M
表示课堂中的学生人数,
Y
i
是第
i
个学生的行为信息实际框,是第
i
个学生的行为信息预测框;
2)
回归损失
DFL
值和
CIL
值计算如下:
DFL(S
i
,S
i+1
)


((Y
i+1

Y)log(S
i
)+(Y

Y
i
)log(S
i+1
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)CIL
=1‑
(u
β

(loss(length)+loss(width)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
其中,
S
i
表示对第
i
个学生的肢体动作特征进行
Softmax
激活函数计算,将新的肢体动作特征值转换为范围在
[0,1]
和为1的概率分布,
loss(length)
表示所有学生的行为信息预测框与实际框
Y
在长度
length
上的损失值,
loss(width)
表示所有学生的行为信息预测框与实际框
Y
在宽度
width
上的损失值;最后,将上述三类损失
CLS、DFL、CIL
值进行融合加权,得到最终的目标损失函数
。5.
如权利要求3所述的一种基于多模态数据的课堂认知投入识别方法,其特征在于:针对面部表情和面部单...

【专利技术属性】
技术研发人员:魏艳涛徐琦高洁刘清堂
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1