当前位置: 首页 > 专利查询>中南大学专利>正文

一种轻量级唇语识别方法及相关设备技术

技术编号:37682747 阅读:18 留言:0更新日期:2023-05-28 09:36
本发明专利技术提供了一种轻量级唇语识别方法及相关设备,包括:获取唇部图片序列样本集,将唇语图片序列样本集输入唇语识别教师模型进行识别,得到与每个唇语图片序列样本对应的词语的第一概率分布值,并对第一概率分布值进行蒸馏,得到第一预测值;将唇语图片序列样本集输入唇语识别学生模型,以第一预测值为预测目标,指导唇语识别学生模型进行训练,得到轻量级唇语识别模型;将待识别的唇语视频输入目标检测模块进行检测,得到唇部图片序列,并将唇部图片序列输入轻量级唇语识别模型进行唇语识别,得到与唇部图片序列对应的词语;解决了现有的唇部识别模型实时响应不强的问题,提高了识别效率,提高了模型识别的准确率。提高了模型识别的准确率。提高了模型识别的准确率。

【技术实现步骤摘要】
一种轻量级唇语识别方法及相关设备


[0001]本专利技术涉及视觉语言识别
,特别涉及一种轻量级唇语识别方法及相关设备。

技术介绍

[0002]目前,由于基于音频的语言识别容易受到背景噪声和重叠语音的影响,因此,以唇语识别为代表的视觉语言识别技术已经发展起来,以提升语音识别的效率与捕捉额外的视觉信息;且与其他识别方法,例如手势识别、指纹识别相比,唇语识别因具有实时响应性高的特点被广泛应用到语音识别辅助、感官缺失人群交流等领域。
[0003]几年前对于传统唇语识别研究较广泛,存在识别效率较低,可训练的数据量较少的问题。随着唇语数据集的大规模化和识别要求复杂化,基于深度学习的唇语识别技术近年来得到了广泛关注,其具有抽取蠢动深层特征、泛化性较高、识别精度较高的优点,逐渐成为唇语识别领域的主流研究。基于深度学习的唇语识别方法实现思路为:将唇语图像输入网络前端以提取唇语特征,将前端处理结果传递至后端进行分类预测,以端到端的方式进行训练。许多学者做了不同方向上的创新,将模型复杂化,加深网络层,以提高识别准确率。Stafylakis等人提出了应用深度残差网络(ResNet)至唇语识别模型的前端;Chuang等人提出了基于时空卷积神经网络的唇语识别模型;Martinez等人使用了多尺度时间卷积网络(TCN)取代循环神经网络(RNN)的后端,这些方法都取得了较高的识别准确率。但是,随着唇语识别模型的复杂度增加,网络层数增多,其计算量与参数快速增加,因此对设备性能的要求不断提高,这就造成了一个问题:现存的绝大部分唇语识别模型无法解决降低模型计算量与提高识别准确率之间的矛盾,这限制了高性能唇语识别模型在移动设备与边缘设备的嵌入,不能充分发挥深度学习唇语识别模型的显示应用价值。
[0004]此外,就模型本身的识别能力来讲,虽然基于深度学习的唇语识别技术取得了较大的进展,但是在实际应用中依旧面临着许多问题,例如:缺失唇部位置检测的步骤;说话内容语音习惯不同会使嘴唇呈现不同的运动轨迹;发音习惯、方言习惯会使得嘴唇运动存在差异性;唇部运动具有局限性,外部环境的变化会使得嘴唇呈现不同的状态;这些问题增加了识别难度,降低了识别准确率。

技术实现思路

[0005]本专利技术提供了一种轻量级唇语识别方法及相关设备,其目的是为了降低识别难度,提高识别准确率。
[0006]为了达到上述目的,本专利技术提供了一种轻量级唇语识别方法,包括:
[0007]步骤1,获取唇部图片序列样本集;
[0008]步骤2,将唇语图片序列样本集输入唇语识别教师模型进行识别,得到与每个唇语图片序列样本对应的词语的第一概率分布值,并对第一概率分布值进行蒸馏,得到第一预测值;
[0009]步骤3,将唇语图片序列样本集输入唇语识别学生模型,以第一预测值为预测目标,指导唇语识别学生模型进行训练,得到轻量级唇语识别模型;
[0010]步骤4,将待识别的唇语视频输入目标检测模块进行检测,得到唇部图片序列,并将唇部图片序列输入轻量级唇语识别模型进行唇语识别,得到与唇部图片序列对应的词语。
[0011]进一步来说,步骤2包括:
[0012]将唇部图片序列样本集输入唇语识别教师模型进行识别,得到与每个唇语图片序列样本对应的词语的第一概率分布值;
[0013]在温度系数T=t下,通过softmax函数对第一概率分布值进行平滑操作,得到第一预测值。
[0014]进一步来说,步骤3包括:
[0015]将唇部图片序列样本集内唇部图片序列样本的真实标签作为硬标签;
[0016]将第一预测值作为软标签;
[0017]将硬标签输入唇语识别学生模型,以软标签为预测目标,指导唇语识别学生进行训练,得到与每个唇语图片序列样本对应的词语的第二概率分布值;
[0018]在温度系数T=t下,通过softmax函数对第二概率分布值进行平滑操作,得到第二预测值;
[0019]通过均分误差损失函数对第一预测值和第二预测值进行计算,得到蒸馏损失值;
[0020]在温度系数T=1下,通过softmax函数对第二概率分布值进行平滑操作,得到第三预测值;
[0021]通过交叉熵损失函数对第三预测值和硬标签进行计算,得到学生损失;
[0022]根据蒸馏损失和学生损失计算总损失值,并通过总损失值对唇语识别学生模型进行迭代更新,得到轻量化唇语识别模型。
[0023]进一步来说,根据蒸馏损失值和学生损失值计算总损失值,其中,(1

α)MSE(y
s2
,y
t
)为蒸馏损失部分,αCE(y
s3
,y)为学生损失部分,总损失值的函数表达式为:
[0024]L
total
=αCE(y
s3
,y)+(1

α)MSE(y
s2
,y
t
)
[0025]其中,α为权重,CE为交叉熵损失函数,y
s3
为唇语识别学生模型输出的第三预测值,y为硬标签,MSE为均方差损失函数,y
s2
为唇语识别学生模型输出第二预测值,y
t
为唇语识别教师模型输出的第一预测值。
[0026]进一步来说,轻量级唇语识别模型包括前端模块和后端模块;
[0027]前端模块包括:依次连接的时空三维卷积层、第一批处理规范化层、第一校正线性激活单元、最大池化层、SE

ResNet

18网络和全局平均池化层;
[0028]时空三维卷积层的输入端与目标检测模块的输出端连接,全局平均池化层的输出端与后端模块的输出端连接;
[0029]后端模块包括:依次连接的第一门控循环单元、第二门控循环单元、第三门控循环单元、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、全连接层、全局平均池化层、第二批处理规范化层、第二校正线性激活单元和softmax输出层;
[0030]第一门控循环单元的输入端与全局平均池化层的输出端连接,softmax输出层输出识别结果。
[0031]进一步来说,SE

ResNet

18网络是在ResNet网络的每个残差块中增加用于对唇部图片序列进行挤压处理的挤压模块和用于对唇部图片序列进行激励处理的激励模块,利用SE

ResNet

18网络对唇部图片序列进行特征提取,将提取的特征输入平均池化层进行压缩,得到压缩结果。
[0032]进一步来说,将待识别的唇语视频输入目标检测模块进行检测,得到唇部图片序列,包括:
[0033]将以30帧的速度读取系统摄像头采集的视频作为待识别的唇语视频;
[0034]将待识别的唇语视频进行切帧后输入目标检测模块进行处理,得到唇部坐标;
[0035]通过唇部坐标对切帧后的唇语视频进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种轻量级唇语识别方法,其特征在于,包括:步骤1,获取唇部图片序列样本集;步骤2,将所述唇语图片序列样本集输入唇语识别教师模型进行识别,得到与每个唇语图片序列样本对应的词语的第一概率分布值,并对所述第一概率分布值进行蒸馏,得到第一预测值;步骤3,将所述唇语图片序列样本集输入唇语识别学生模型,以所述第一预测值为预测目标,指导所述唇语识别学生模型进行训练,得到轻量级唇语识别模型;步骤4,将待识别的唇语视频输入目标检测模块进行检测,得到唇部图片序列,并将所述唇部图片序列输入所述轻量级唇语识别模型进行唇语识别,得到与所述唇部图片序列对应的词语。2.根据权利要求1所述的轻量化唇语识别方法,其特征在于,所述步骤2包括:将所述唇部图片序列样本集输入所述唇语识别教师模型进行识别,得到与每个唇语图片序列样本对应的词语的第一概率分布值;在温度系数T=t下,通过softmax函数对所述第一概率分布值进行平滑操作,得到第一预测值。3.根据权利要求2所述的轻量化唇语识别方法,其特征在于,所述步骤3包括:将所述唇部图片序列样本集内唇部图片序列样本的真实标签作为硬标签;将所述第一预测值作为软标签;将所述硬标签输入所述唇语识别学生模型,以所述软标签为预测目标,指导所述唇语识别学生进行训练,得到与每个唇语图片序列样本对应的词语的第二概率分布值;在所述温度系数T=t下,通过softmax函数对所述第二概率分布值进行平滑操作,得到第二预测值;通过均分误差损失函数对所述第一预测值和所述第二预测值进行计算,得到蒸馏损失值;在所述温度系数T=1下,通过softmax函数对所述第二概率分布值进行平滑操作,得到第三预测值;通过交叉熵损失函数对所述第三预测值和硬标签进行计算,得到学生损失;根据所述蒸馏损失和所述学生损失计算总损失值,并通过所述总损失值对所述唇语识别学生模型进行迭代更新,得到轻量化唇语识别模型。4.根据权利要求3所述的轻量级唇语识别方法,其特征在于,根据所述蒸馏损失和所述学生损失计算总损失值,其中,(1

α)MSE(y
s2
,y
t
)为蒸馏损失,αCE(y
s3
,y)为学生损失,所述总损失值的函数表达式为:L
total
=αCE(y
s3
,y)+(1

α)MSE(y
s2
,y
t
)其中,α为权重,CE为交叉熵损失函数,y
s3
为唇语识别学生模型输出的第三预测值,y为硬标签,MSE为均方差损失函数,y
s2
为唇语识别学生模型输出第二预测值,y
t
为唇语识别教师模型输出的第一预测值。5.根据权利要求1所述的轻量级唇语识别方法,...

【专利技术属性】
技术研发人员:漆华妹叶健材江苏
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1