基于多线索相互蒸馏和自蒸馏的连续手语识别方法技术

技术编号:34341298 阅读:76 留言:0更新日期:2022-07-31 03:57
本发明专利技术为基于多线索相互蒸馏和自蒸馏的连续手语识别方法,包括获取手语视频,从手语视频中提取脸部、左手手部以及右手手部视频并进行预处理,从视频中提取空间特征,再从空间特征中提取具有短期时间联系的手语词级特征,从手语词级特征中提取具有长期时间联系的上下文级特征,再利用全连接层和激活函数,获得归一化的分类概率矩阵;基于获得的分类概率矩阵构建总损失函数,并训练神经网络;将训练后的神经网络用于预测手语,并输出手语标签。该方法利用了原始手语图像中的脸部信息和手部信息,通过相互蒸馏的方式充分利用脸部信息和手部信息的知识,解决了局部信息利用不充分的问题,提高了神经网络的泛化能力;通过自蒸馏的方式增加了神经网络中不同模块之间的协调性。性。性。

【技术实现步骤摘要】
基于多线索相互蒸馏和自蒸馏的连续手语识别方法


[0001]本专利技术的技术方案涉及深度学习图像处理和图像识别
,具体是一种基于多线索相互蒸馏和自蒸馏的连续手语识别方法。

技术介绍

[0002]连续手语识别的目的是将一句完整的手语语句翻译成为一个完整的文字语句。一个完整的手语语句由若干个单词构成,连续手语识别的任务是将完整的手语语句分割为若干个手语单词,再通过句子合成为一个完整的文字语句。连续手语识别涉及到了计算机视觉、人机交互、模式识别和自然语言处理等多个

[0003]手语不仅仅是手势变化,它是由手势、上半身肢体动作和脸部表情共同构成的一种肢体语言,是听力障碍人群和正常人之间的重要交流方式。由于大多数正常人不懂手语,故连续手语识别技术实现了听力障碍人群和正常人之间的沟通交流。手语识别一般分为两类:孤立手语识别和连续手语识别,连续手语识别通常以孤立手语识别为基础,对手语孤立词进行识别,然后进行单词拼接。传统的连续手语识别方法利用手工特征进行建模,近些年来深度学习技术被用于连续手语识别之中,对于连续手语识别中由于手势遮挡、手本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多线索相互蒸馏和自蒸馏的连续手语识别方法,其特征在于,该方法包括以下内容:获取手语视频,从手语视频中提取脸部、左手手部以及右手手部视频;对手语视频、脸部视频、左手手部视频和右手手部视频进行包括随机裁剪、随机翻转和归一化在内的预处理;将手语视频输入到残差网络Resnet50中进行特征提取,得到全局空间特征;将脸部视频、左手手部视频和右手手部视频输入到残差网络Resnet18中,得到脸部空间特征、左手手部空间特征和右手手部空间特征;将左手手部空间特征和右手手部空间特征按照第二个维度进行拼接,得到手部空间特征;利用一维卷积模块分别从全局空间特征、脸部空间特征和手部空间特征中提取具有短期时间联系的全局手语词级特征、脸部手语词级特征和手部手语词级特征;一维卷积模块由一维卷积和时序最大池化构成,一维卷积模块的结构为Conv
1D
,MaxPooling
1D
,Conv
1D
,MaxPooling
1D
,Conv
1D
为卷积核大小为5的一维卷积,MaxPooling
1D
为大小为2的时序最大池化;从全局手语词级特征、脸部手语词级特征和手部手语词级特征中提取具有长期时间联系的全局上下文级特征、脸部上下文级特征和手部上下文级特征,再利用全连接层和softmax激活函数,获得归一化的全局分类概率矩阵、脸部分类概率矩阵、手部分类概率矩阵和全局手语词级分类概率矩阵;基于获得的分类概率矩阵,构建总损失函数,训练神经网络;总损失函数包含链接时序分类损失函数、多线索相互蒸馏损失和自蒸馏损失三部分;将训练后的神经网络用于预测手语,并输出手语标签。2.根据权利要求1所述的基于多线索相互蒸馏和自蒸馏的连续手语识别方法,其特征在于,所述手语视频输入网络的维度为(T,3,112,112),脸部视频、左手手部视频和右手手部视频输入网络的维度分别为(T,3,64,64)、(T,3,96,96)和(T,3,96,96),T表示视频帧数。3.根据权利要求1所述的基于多线索相互蒸馏和自蒸馏的连续手语识别方法,其特征在于,通过OpenPose算法获取手语视频中的人体关节点集P=(p1,

,p
t
,

p
T
),p
t
表示第t帧原始手语图像中的人体关节点集,p
t
中包含18个二维数组,即18个关节点的坐标;对各帧原始手语图像进行裁剪,分别得到脸部图像、左手手部图像和右手手部图像;所有帧脸部图像、左手手部图像和右手手部图像按时间序列排列,分别得到脸部视频、左手手部以及右手手部视频。4.一种基于多线索相互蒸馏和自蒸馏的连续手语识别方法,其特征在于,该方法的具体步骤为:第一步,获取手语视频,从手语视频中提取脸部、左手手部以及右手手部视频;假设手语视频V=(v1,

,v
t
,

v
T
),手语视频为原始手语图像序列形成的视频,T为手语视频V的帧数,表示原始手语图像序列的第1帧、

、第t帧、

、第T帧,将各帧原始手语图像转换为256
×
256像素;通过OpenPose算法获取手语视频V中的人体关节点集P=(p1,

,p
t
,

p
T
),p
t
表示第t帧原始手语图像中的人体关节点集,p
t
中包含18个二维数组,即18个关节点的坐标;根据图像中的坐标点对各帧原始手语图像进行裁剪,分别得到脸部图像、左手手部图像和右手手部
图像;所有帧脸部图像、左手手部图像和右手手部图像按时间序列排列,分别得到脸部视频左手手部视频左手手部视频和右手手部视频和右手手部视频和右手手部视频和分别表示从第t帧原始手语图像裁剪得到的脸部图像、左手图像和右手图像;第二步,对手语视频V、脸部视频V
face
、左手手部视频V
lhand
和右手手部视频V
rhand
进行预处理;将手语视频V=(v1,

,v
i
,

v
T
)中各帧原始手语图像调整为128
×
128像素,并随机裁剪为112
×
112像素,然后进行随机水平翻转,再将图像的像素值都归一化至(

1,1),手语视频V输入神经网络的维度为(T,3,112,112);将脸部视频V
face
、左手手部视频V
lhand
和右手手部视频V
rhand
中各帧图像进行随机水平翻转,再将图像的像素值都归一化至(

1,1),脸部视频V
face
、左手手部视频V
lhand
和右手手部视频V
rhand
输入网络的维度分别为(T,3,64,64)、(T,3,96,96)和(T,3,96,96);预处理的表达式为:3,96,96)和(T,3,96,96);预处理的表达式为:3,96,96)和(T,3,96,96);预处理的表达式为:3,96,96)和(T,3,96,96);预处理的表达式为:公式(3)~(6)中,Resize(
·
)表示调整图像大小的函数,RandomCrop(
·
)表示对图像随机裁剪成固定大小的函数,RandomFlip(
·
)表示对图像进行随机水平翻转的函数,Normalize(
·
)表示归一化函数,用于将图像的像素值从(0,255)归一化到(

1,1)之间;第三步,利用神经网络提取手语视频V、脸部视频V
face
、左手手部视频V
lhand
和右手手部视频V
rhand
的空间特征,得到全局空间特征F
full
、脸部空间特征F
face
、左手手部空间特征F
lhand
和右手手部空间特征F
rhand
;将预处理的手语视频V输入到残差网络Resnet50(Residual Network 50)中进行空间特征提取,得到全局空间特征F
full
的维度为(T,1024),提取全局空间特征的表达式为:公式(7)中,Conv
resnet50
(
·
)表示残差网络Resnet50的函数,f
tfull
表示全局空间特征F
full
中的第t个向量,即从第t帧预处理的手语图像中提取的空间特征;将预处理的脸部视频V
face
、左手手部视频V
lhand
和右手手部视频V
rhand
分别输入到残差网络Resnet18(Residual Network 18)中进行空间特征提取,得到脸部空间特征18)中进行空间特征提取,得到脸部空间特征左手手部空间特征和右手手部空间特征F
face
、F
rhand
和F
lhand
的维度均为(T,1024),提取空间特征的表达分别为如下公式(8)~(10)所示;
公式(8)~(10)中,Conv
resnet18
(
·
)表示残差网络Resnet18的函数,f
tfull
、f
tlhand
和f
trhand
分别表示脸部空间特征F
face
、左手手部空间特征F
lhand
和右手手部空间特征F
rhand
中的第t个向量;第四步,利用一维卷积模块分别从全局空间特征F
full
、脸部空间特征F
face
、左手手部空间特征F
lhand
和右手手部空间特征F
rhand
中提取具有短期时间联系的全局手语词级特征、脸部手语词级特征和手部手语词级特征;将左手手部空间特征F
lhand
和右手手部空间特征F
rhand
按照第二个维度进行拼接,得到手部空间特征F
hand
,F
hand
的维度为(T,2048),拼接的表达为如下公式(11)所示;F
hand
=Cat(F
lhand
,F
rhand
)
ꢀꢀꢀ
(11)公式(11)中,Cat(
·
)表示按照第二个维度进行特征拼接的函数,分别使用一维卷积模块对全局空间特征F
full
、脸部空间特征F
face
和手部空间特征F
hand
进行短期时间联系的特征提取,得到全局手语词级特征F

full
、脸部手语词级特征F

face
和手部手语词级特征F

hand
;一维卷积模块由一维卷积和时序最大池化构成,一维卷积模块的具体结构为Conv
1D
,MaxPooling
1D
,Conv
1D
,MaxPooling
1D
,Conv
1D
为卷积核大小为5的一维卷积,MaxPooling
1D
为大小为2的时序最大池化,使用一维卷积模块提取手语词级特征表达为如下公式(12)~(14)所示;公式(12)~(14)所示;公式(12)~(14)所示;在公式(12)~(14)中,Conv1D(
·
)表示一维卷积模块,和分别表示全局手语词级特征F

full
、脸部手语词级特征F

face
和手部手语词级特征F

hand
中的第t个向量,手语词级特征维度均为(T

,1024),T

=(N

4)/2=(((T

4)/2)

4)/2,N表示时间维度;一...

【专利技术属性】
技术研发人员:于明刘月豪薛翠红于洋郝小可朱叶阎刚郭迎春师硕
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1