当前位置: 首页 > 专利查询>南昌工学院专利>正文

一种融合自注意力机制的学习者在线兴趣检测方法技术

技术编号:39732391 阅读:9 留言:0更新日期:2023-12-17 23:35
本发明专利技术提供了一种融合自注意力机制的学习者在线兴趣检测方法,实现步骤为:

【技术实现步骤摘要】
一种融合自注意力机制的学习者在线兴趣检测方法


[0001]本专利技术涉及计算机视觉和在线教育领域,具体地说,涉及一种融合自注意力机制的学习者在线兴趣检测方法


技术介绍

[0002]学生的兴趣是衡量教学质量的和课堂进度的一个重要的手段,可以为教学质量智能化提升提供更加便捷的服务

面部表情和语音情感是人类表达内心情感和意图最普遍的信号之一,学生的面部表情是当前学生情感状态的有效表现之一,学生的语音情感也反应了学生当前的心里情感

将面部表情识别和语音情感识别相结合,综合评价学生当前的兴趣,从一定程度上保证了评价的公平性和准确性

面部表情识别的难点在于:

面部图像的不清晰,受其他因素
(
光照,拍摄角度
)
影响导致图像像素低;

相同表情之间的差异性,不同表情之间相似性极大地影响了模型的识别性能等

语音情感识别的难点在于:

人类情感是抽象的,使得情感难以区分;

人类情感被察觉只能在一些特定的时间

[0003]传统的表情识别方法图像是直接输入卷积模块的,破坏了图像内部信息,不能准确捕获图像的浅层信息

其次,学习环境的光照变化,光照过强或过弱,都会导致面部细节的丢失,有时还会产生阴影,影响识别结果

传统的语音情感识别也是采用卷积来获取相关的特征
VisionTransformer
能提取深层全局时间特征
,
并且相较于
CNN
更适用于迁移学习任务,能更好的解决语音情感数据样本不足的问题

二者单一的提出都不能很好的反应学生当前的情感状况,体现其兴趣特征,结合二者综合考察可以更全面的体现学生当前的兴趣状况


技术实现思路

[0004]针对现有技术的至少一个缺陷或改进需求,本专利技术提供了一种融合自注意力机制的学习者在线兴趣检测方法,可以综合考虑学生在线课堂学生的兴趣,根据学生当前的状况,教师可以调整当前的学习进度

[0005]本专利技术解决其技术问题所采用的技术方案是:一种融合自注意力机制的学习者在线兴趣检测方法,包括如下步骤:
[0006]分别获取摄像头中
RGB
摄像下学生视频资源和对应的语音信号,并将视频资源按时间顺序分为多帧图像,将语音信号划分为语音块

[0007]对摄像头提取的视频中学生
RGB
多帧图像进行预处理;将语音传感器提取的语音信号进行预处理

[0008]将预处理后的学生
RGB
多帧图像输入到训练好的表情识别模型中获取学生在教室中的表情识别结果;将预处理后的语音信号送入训练好的语音情感识别模型中获取对应的语音情感分析结果
[0009]根据不同时刻学生的面部表情与语音结果综合判断是否大于阈值
f
,从而对学生学习兴趣进行判断;
[0010]根据所述的学生学习兴趣判断结果向老师进行反馈,及时调整课堂教学内容;一种融合自注意力机制的学习者在线兴趣检测方法其特征在于,所述的表情识别模型包括光照归一化模块,特征提取模块,特征筛选模块,
DTransformer
模块

所述光照归一化模块采用直方图均衡化和线性变换加权求和的归一化方法,用块来减少摄像头下光照对表情识别的影响,所述特征筛选模块由局部注意力通道和全局注意力通道组成,用来融合面部的局部

全局的特征信息,过滤特征中的无效信息,筛选显著细节信息从而提高表情识别性能
[0011]按上述方法,所述光照归一化模型过程如下:
[0012]步骤
1.1.1
:给定一个大小为3×
H
×
W
的面部表情图像
Img
RI
,先分别获得直方图均衡化图像
Img
OE
和线性变换图像
Img
ON

[0013]步骤
1.1.2
:将
Img
HE

Img
HN
按适当的权重融合成光照适中图像
Img
IRR

既公式为
Img
IRR

(1

δ
)
×
Img
OE
+
δ
×
Img
ON

[0014]所述特征提取模块过程如下:
[0015]采用人脸数据集上预训练的
ResNet18
作为特征提取的主干网络,以此提取大小为的特征映射
X
ILL
,其中
D
out
为输出的通道数,
AS
为下采样的倍率

[0016]所述特征筛选模块过程如下:
[0017]步骤
1.2.1
:给定特征映射经过两个分支注意力通道可计算得局部注意力权重和全局注意力权重
[0018]步骤
1.2.2
:将双分支注意力权重通过广播加法进行融合,得到局部

全局注意力权重
[0019]步骤
1.2.3
:使用残差连接,筛选出显著特征其中
X(F)

X
ILL
×
LG(X)。
[0020]所述
DTransformer
模块过程如下:
[0021]步骤
1.3.1
:将二维的面部显著特征按补丁大小
(P,P)
分割成
N
个二维面部特征块,和,其中
[0022][0023]步骤
1.3.2
:将
N
个二维面部特征块线性映射并将其展平为特征序列其中
C
f
为特征序列的通道数,具体为
Z0=
Flt(Conv(X
P
))
,其中,
Conv
表示输入通道为
C
out
,输出通道为
C
f

Flt
表示展平操作

[0024]步骤
1.3.3
:在特征序列头部嵌入可学习的情感分类编码
[class],同时为该序列中的每个特征单词添加可学习的位置编码
[0025]步骤
1.3.4:DTransfomer
主要由一个
Transformer
编码器和一个
soft max
函数组成,每个多头自我注意模块后面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种融合自注意力机制的学习者在线兴趣检测方法,其特征在于,包括步骤:分别获取摄像头中
RGB
摄像下学生视频资源和对应的语音信号,并将视频资源按时间顺序分为多帧图像,将语音信号划分为语音块

对摄像头提取的视频中学生
RGB
多帧图像进行预处理;将语音传感器提取的信号进行预处理

将预处理后的学生
RGB
多帧图像输入到训练好的表情识别模型中获取学生在教室中的表情识别结果;将预处理后的语音信号送入训练好的语音情感识别模型中获取对应的语音情感分析结果根据不同时刻学生的面部表情与语音结果综合判断是否大于阈值
f
,从而对学生学习兴趣进行判断;根据所述的学生学习兴趣判断结果向老师进行反馈,及时调整课堂教学内容
。2.
如权利要求1所述的一种融合自注意力机制的学习者在线兴趣检测方法其特征在于,所述的表情识别模型包括光照归一化模块,特征提取模块,特征筛选模块,
DTransformer
模块

所述光照归一化模块用块来消减不同环境下光照对提取图像的影响,所述特征筛选模块由局部注意力通道和全局注意力通道构成,用来融合面部的局部和全局的特征

所述
DTransformer
模块是一种改进的
Transformer
模块,加入随机丢弃特征用来加强面部特征之间的联系,从而提高模型的特征学习能力

最后用
softmax
函数用来对学习结果进行表情预测

所述语音情感识别模块包括预处理,三维梅尔频谱图,和
VisionTransformer
模块,三维梅尔频谱用来减少语音中与情感无关特征的影响,
VisionTransformer
模块来进行全局表征的计算最后进行分类
。3.
如权利要求2所述的一种融合自注意力机制的学习者在线兴趣检测方法,其特征在于,所述光照归一化模型过程训练如下:步骤
1.1.1
:给定一个大小为3×
H
×
W
的面部表情图像
Img
RI
,先分别获得直方图均衡化图像
Img
OE
和线性变换后的图像
Img
ON

步骤
1.1.2
:将直方图均衡化后的图像和线性变换后的图像按适当的权重融合成光照适中图像
Img
IRR
。4.
如权利要求2所述的一种融合自注意力机制的学习者在线兴趣检测方法,其特征在于,所述特征提取模块过程如下:根据人脸数据集中预训练的
ResNet18
作为特征提取主干网络,以此提取大小为的特征映射
X
ILL
,其中
Dout
为输出的通道数,
AS
为下采样的倍率
。5.
如权利要求2所述的一种融合自注意力机制的学习者在线兴趣检测方法,其特征在于,所述特征筛选模块过程如下:步骤
1.2.1
:给定特征映射经过两个分支注意力通道可分别计算出局部注意力权重和全局注意力权重步骤
1.2.2
:将两个分支的注意力权重通过广播加法进行融合,得到局部

全局注意力权重
步骤
1.2.3
:使用残差连接,筛选出显著特征
6.
如权利要求2所述的一种融合自注意力机制的学习者在线兴趣检测方法,其特征在于,所述
DTransformer
模块过程如下:步骤
1.3.1
将二维的面部显著特征按补丁大小
(P,P)
分割成
N
个二维面部特征块,,其中步骤
1.3.2
:将二维的面部显著特征,按补丁大小
(P,P)
分为割成
N
个二维面部特征块,将
N
个二维面部特征块线性映射并展平为特征序列步骤
1.3.3...

【专利技术属性】
技术研发人员:黎曦杜军朱炜为李少义肖守柏李超郑宏刘婷婷
申请(专利权)人:南昌工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1