当前位置: 首页 > 专利查询>南昌工学院专利>正文

一种基于交错注意力机制的教师教学意图检测方法及系统技术方案

技术编号:39676670 阅读:27 留言:0更新日期:2023-12-11 18:43
本发明专利技术以教师教学手部姿势以及教师上肢动作为研究对象,针对计算机视觉技术应用在在教学场景中的辅助作用,公开了一种基于交错注意力的教师教学意图检测方法及系统

【技术实现步骤摘要】
一种基于交错注意力机制的教师教学意图检测方法及系统


[0001]本申请涉及模式识别
,更具体地,涉及一种基于交错注意力机制的教师教学意图检测方法及系统


技术介绍

[0002]手势语言是一种不可或缺的教学辅助手段,合理的教学手势可以引导学生提高注意力和增加学生的课堂情绪

利用手部姿势估计来对教师的教学质量进行智能化衡量评估,可以为教师及教学管理者提供高效的教学反馈信息,促进教师综合能力提升

为此,通过检测教师的手势动作来反映教师教学意图,可以作为一种有效评判教师教学质量的技术手段

[0003]手势识别技术首先通过数据手套这类可穿戴设备来获取手部数据,从而实现对手势的精准识别

但是其高成本使得研究者将重心转移到了光学标记法的手势获取信息

随后,研究者为了探索应用前景更宽阔的自然手手势检测和识别,逐渐将目光转移到基于无线信号和基于视觉的手势识别方法

目前基于视觉的教学环境手部姿态识别技术,通过提取手部关节特征来进行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于交错注意力的教师教学意图检测方法及系统,其特征在于,包括步骤:分别获取教学场景中的
RGB

D
摄像头以及
3D
结构光摄像头下的教师手部姿势
RGB
视频流

教师上肢动作
RGB
视频流

教师手部姿势结构光图像视频流以及教师上肢动作结构光图像视频流;分别对教学场景中采集的视频流进行预处理,得到教师手部姿势单通道关键点热图

教师上肢动作单通道关键点热图

教师手部姿势结构光图像

以及教师上肢动作结构光图像;将预处理的教师手势的单通道关键点热图手势拼接向量和教师手部姿势结构光特征向量进行融合,然后输入到已经训练好的教学手势估计模型中,获得教师手势识别结果

将教师上肢动作的
RGB
特征向量和教师上肢动作结构光特征向量进行特征融合,然后输入到已经训练好的上肢动作卷积神经网络模型中,获得教师上肢动作识别结果;根据教师手势的识别结果和上肢动作识别结果进行均值归一化融合处理,最终判断教师教学手势类型;根据所述的教师手势识别结果来对教师在课堂上通过手势传递思想感情,组织教育教学,展示自身良好的精神风貌与职业修养的评估参考
。2.
如权利要求1所述的一种基于交错注意力的教师教学意图检测方法及系统,其特征在于,所述的教师手势识别模型包括
RGB

D
图像采集模块

特征融合模块

非循序
Transformer、
交错注意力模块和全连接层

所述的特征融合中包括
U

Net
网络,用于提取并进行降维处理
RGB

D
采集的教师手势图像外观向量,进行位置编码的关键点热图特征得到手势位置编码向量,进行灰度均一化处理的结构光图像得到
3D
坐标的手势结构光特征向量

手势外观向量和手势位置编码向量形成手势拼接向量;所述的特征融合模块将手势拼接向量和手势结构光图像特征向量融合后输出手势融合向量

所述的非循序
Transformer
用于将手势融合向量作为输入,提取教师教学手部热图中手部的关节特征,并对提取特征进行手势识别;所述的交错注意力层来预测每个关节的值进而用来预测手部姿势;所述的全连接层用于输出最终的精细手势识别结果
。3.
如权利要求2所述的教师手势识别模型,其特征在于,所述的教师手势特征提取和特征融合过程如下:步骤
1.1.1
,对输入的数据进行特征提取

使用
U

Net
网络对
RGB

D
数据流的手部姿势外观向量进行降维处理,得到外观特征向量步骤
1.1.2
,对热图向量进行位置编码,包括位置特征编码和可学习嵌入

学习嵌入变量可表示为:其中,
ω
i
代表的是可学习的位置嵌入,上一层可学习的位置嵌入表示为:空间编码器中的每个单通道关键点热图特征向量会分别经过矩阵
Z
Ci
、Z
Li
、Z
Hi
∈R
b/(b/c)
,
其目的是进行线性映射得到其目的是进行线性映射得到其中,
i∈{1,2,

,I}
代表多头注意力层的注意头数目,表示注意力头的数量,
LN
代表层归一化

输出关键点热图进行位置特征编码
输出关键点热图位置编码向量表示为:步骤
1.1.3
,对
3D
结构光图像数据流进行预处理

将输入的结构光图像进行灰度均值化处理后得到
64
帧像素图像的灰度值

灰度均值化过程为:其中,
G
max
表示图像中的最大灰度值,
G
min
表示图像中的最小灰度值,
α
j
表示均值化的学习参数

步骤
1.1.4
,通过结构光相机的投影变换和归一化得到手关节的
3D
坐标,
2D
平面坐标和
3D
坐标之间的关系为:其中,
c
x
、c
y
分别表示相机的焦距,
x
j
、y
j
、z
j
表示
3D
坐标,
f
j
、g
j
表示
2D
坐标
。3D
坐标获得可表示为:其中,
α2表示学习参数

步骤
1.1.5
,将输入的
RGB

D
图像向量融合

教师的手部姿势的外观特征向量和进行空间编码的关键点热图向量形成的手势拼接向量表示:间编码的关键点热图向量形成的手势拼接向量表示:将手势拼接向量与结构光图像特征提取得到的
3D
坐标进行特征融合

可表示为:
P

A+
α3D。
其中,
α3表示特征融合的平衡参数
。4.
如权利要求2所述的教学手势识别模型,其特征在于,所述的教学手势识别模型的训练如下:步骤
1.2.1
,将手势融合向量作为输入向量输入到非循序
Transformer
模型中,手势参考提取器的预先估计结果对预测提供参考信息

步骤
1.2.2
,计算手势识别模型输出的预测关键点热图和标签关键点热图的差距,作为手势识别模型的损失值

对图片中预测的关键点热图,在通过关键点数据得到标签
R(x,y)
,计算对应照片的损失值,并由数据集的总损失值来更新网络权重

对于每一个关键点热图所含的像素点,可以得到像素点在正确标注的情况下的唯一坐标
(u1,v1)
,当前预测关键点热图的坐标
(u2,v2)
,该像素点的损失值满足:设置阈值
γ1=
3pixel。
关键点热图的像素坐标满足
ε
Heart

γ1,则将该关键点归类为临近的关节点,若
ε
Heart
>
γ1,则将该关键点与背景归为一类

步骤
1.2.3
,使用带有学习关节查询的单个交错注意力层来预测关键点和关节的联系,目的是为了对关键点和关节之间的关系进行前后感知,使其预测准确度提升

计算可表达为:其中学习关节查询
L
i
∈R
256

W
C
,W
H
分别表示
256
×
256
的学习矩阵

步骤
1.2.4
,在模型训练过程中真实手关节与估计手关节坐标的损失函数表示为:其中
α
j
表示手关节坐标真实值,
γ
j
表示手关节坐标预测值,
J
表示样本数

计算真实关键点与手关节的损失函数表示为:其中
KL
代表的是
KL
散度损失,
h
j
、h
j

分别代表预测的手关节关键点和真实的手部关键点;全连接层
真实手关节与估计手关节坐标的损失函数表示为:其中
δ
j
表示全连接层的手关节坐标真实值

步骤
1.2.5
,在对模型的训练过程中,通过最小化损失函数来监督模型端到端的学习过程,表示为:
ε

ε1+
ε2+
ε3+
ε
Heart

通过最小值估计法来训练框架,当损失函数取最小值时可最终得到模型参数值

【专利技术属性】
技术研发人员:黎曦李少义肖文陈灯肖守柏鞠剑平唐剑隐刘海
申请(专利权)人:南昌工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1