一种轻量级唇语识别方法及相关设备技术

技术编号：37682747 阅读：18 留言：0更新日期：2023-05-28 09:36

本发明专利技术提供了一种轻量级唇语识别方法及相关设备，包括：获取唇部图片序列样本集，将唇语图片序列样本集输入唇语识别教师模型进行识别，得到与每个唇语图片序列样本对应的词语的第一概率分布值，并对第一概率分布值进行蒸馏，得到第一预测值；将唇语图片序列样本集输入唇语识别学生模型，以第一预测值为预测目标，指导唇语识别学生模型进行训练，得到轻量级唇语识别模型；将待识别的唇语视频输入目标检测模块进行检测，得到唇部图片序列，并将唇部图片序列输入轻量级唇语识别模型进行唇语识别，得到与唇部图片序列对应的词语；解决了现有的唇部识别模型实时响应不强的问题，提高了识别效率，提高了模型识别的准确率。提高了模型识别的准确率。提高了模型识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种轻量级唇语识别方法及相关设备

[0001]本专利技术涉及视觉语言识别
，特别涉及一种轻量级唇语识别方法及相关设备。

技术介绍

[0002]目前，由于基于音频的语言识别容易受到背景噪声和重叠语音的影响，因此，以唇语识别为代表的视觉语言识别技术已经发展起来，以提升语音识别的效率与捕捉额外的视觉信息；且与其他识别方法，例如手势识别、指纹识别相比，唇语识别因具有实时响应性高的特点被广泛应用到语音识别辅助、感官缺失人群交流等领域。
[0003]几年前对于传统唇语识别研究较广泛，存在识别效率较低，可训练的数据量较少的问题。随着唇语数据集的大规模化和识别要求复杂化，基于深度学习的唇语识别技术近年来得到了广泛关注，其具有抽取蠢动深层特征、泛化性较高、识别精度较高的优点，逐渐成为唇语识别领域的主流研究。基于深度学习的唇语识别方法实现思路为：将唇语图像输入网络前端以提取唇语特征，将前端处理结果传递至后端进行分类预测，以端到端的方式进行训练。许多学者做了不同方向上的创新，将模型复杂化，加深网络层，以提高识别准确率。Stafylakis等人提出了应用深度残差网络(ResNet)至唇语识别模型的前端；Chuang等人提出了基于时空卷积神经网络的唇语识别模型；Martinez等人使用了多尺度时间卷积网络(TCN)取代循环神经网络(RNN)的后端，这些方法都取得了较高的识别准确率。但是，随着唇语识别模型的复杂度增加，网络层数增多，其计算量与参数快速增加，因此对设备性能的要求不断提高，这就造成了一个问题：现存的绝大部分唇语识别模型...

【技术保护点】

【技术特征摘要】
1.一种轻量级唇语识别方法，其特征在于，包括：步骤1，获取唇部图片序列样本集；步骤2，将所述唇语图片序列样本集输入唇语识别教师模型进行识别，得到与每个唇语图片序列样本对应的词语的第一概率分布值，并对所述第一概率分布值进行蒸馏，得到第一预测值；步骤3，将所述唇语图片序列样本集输入唇语识别学生模型，以所述第一预测值为预测目标，指导所述唇语识别学生模型进行训练，得到轻量级唇语识别模型；步骤4，将待识别的唇语视频输入目标检测模块进行检测，得到唇部图片序列，并将所述唇部图片序列输入所述轻量级唇语识别模型进行唇语识别，得到与所述唇部图片序列对应的词语。2.根据权利要求1所述的轻量化唇语识别方法，其特征在于，所述步骤2包括：将所述唇部图片序列样本集输入所述唇语识别教师模型进行识别，得到与每个唇语图片序列样本对应的词语的第一概率分布值；在温度系数T＝t下，通过softmax函数对所述第一概率分布值进行平滑操作，得到第一预测值。3.根据权利要求2所述的轻量化唇语识别方法，其特征在于，所述步骤3包括：将所述唇部图片序列样本集内唇部图片序列样本的真实标签作为硬标签；将所述第一预测值作为软标签；将所述硬标签输入所述唇语识别学生模型，以所述软标签为预测目标，指导所述唇语识别学生进行训练，得到与每个唇语图片序列样本对应的词语的第二概率分布值；在所述温度系数T＝t下，通过softmax函数对所述第二概率分布值进行平滑操作，得到第二预测值；通过均分误差损失函数对所述第一预测值和所述第二预测值进行计算，得到蒸馏损失值；在所述温度系数T＝1下，通过softmax函数对所述第二概率分布值进行平滑操作，得到第三预测值；通过交叉熵损失函数对所述第三预测值和硬标签进行计算，得到学生损失；根据所述蒸馏损失和所述学生损失计算总损失值，并通过所述总损失值对所述唇语识别学生模型进行迭代更新，得到轻量化唇语识别模型。4.根据权利要求3所述的轻量级唇语识别方法，其特征在于，根据所述蒸馏损失和所述学生损失计算总损失值，其中，(1
‑
α)MSE(y
s2
,y
t
)为蒸馏损失，αCE(y
s3
,y)为学生损失，所述总损失值的函数表达式为：L
total
＝αCE(y
s3
,y)+(1
‑
α)MSE(y
s2
,y
t
)其中，α为权重，CE为交叉熵损失函数，y
s3
为唇语识别学生模型输出的第三预测值，y为硬标签，MSE为均方差损失函数，y
s2
为唇语识别学生模型输出第二预测值，y
t
为唇语识别教师模型输出的第一预测值。5.根据权利要求1所述的轻量级唇语识别方法，...

【专利技术属性】
技术研发人员：漆华妹，叶健材，江苏，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人