一种用于说话人无关的唇语识别方法及系统技术方案

技术编号:28839613 阅读:25 留言:0更新日期:2021-06-11 23:37
本发明专利技术涉及一种用于说话人无关的唇语识别方法及系统,所述方法包括:获取训练唇语图片序列;将训练唇语图片序列输入身份与语义深度耦合模型中,得到特征序列并计算各个网络的损失;以各种加权损失作为优化目标,对耦合模型和唇语预测网络进行迭代寻优,得到最优识别模型;将待测图片序列输入识别模型中,得到识别文本。本发明专利技术分别对唇语图片序列的身份特征与语义特征编码,以不同样本身份对比损失以及相同样本不同帧的身份差异损失对身份编码过程进行约束,以监督损失对语义编码过程进行约束,并采用身份与语义耦合重建网络对学习的身份与语义特征进行约束,有效的避免语义特征混入身份信息,提高了唇语识别模型在说话人无关条件下的识别准确率。

【技术实现步骤摘要】
一种用于说话人无关的唇语识别方法及系统
本专利技术涉及智能人机交互
,特别是涉及一种用于说话人无关的唇语识别方法及系统。
技术介绍
唇语识别作为一种新兴的人机交互方式,是从视觉信息出发,通过分析唇部区域的动态变化来理解说话人语义。该技术可以很好的克服语音识别在噪声环境应用中存在的不足,有效的提高语义分析系统的可靠性能。唇语识别技术具有广阔的应用前景,它可用于各类噪声环境下语言交互的识别任务,例如医院、商场等嘈杂环境下语言识别。此外,唇语识别还可应用于聋哑人辅助语义理解,从而帮助聋哑人建立说话能力。目前,唇语识别技术精度远未达到实际应用的需要。由于唇部发声是由说话人身份与说话内容在时空域内相互耦合作用而形成。不同说话人在唇部外观、说话方式等方面都存在巨大差异,甚至相同人在不同时刻、不同场景下的说话方式、语速等也存在差异。因此,在识别过程中,不同身份信息会对语义内容形成严重干扰。正是由于说话人身份信息与语义内容的高度耦合性,严重制约唇语识别系统精度的提升。
技术实现思路
本专利技术的目的是提供一种用于说话人无关的唇语识别方法及系统,能够解决由于说话人身份信息干扰对识别结果造成的影响,提高唇语识别的准确率。为实现上述目的,本专利技术提供了如下方案:一种用于说话人无关的唇语识别方法,包括:获取多个说话人样本的训练唇语图片序列;将多个所述训练唇语图片序列输入身份与语义深度耦合模型中,得到身份特征序列、语义特征序列和重建图像序列;所述身份与语义深度耦合模型包括:2D稠密卷积神经网络、3D稠密卷积神经网络和反卷积神经网络;所述2D稠密卷积神经网络用于编码所述训练唇语图片序列的身份特征,得到所述身份特征序列;所述3D稠密卷积神经网络用于编码所述训练唇语图片序列的语义特征,得到所述语义特征序列;所述反卷积神经网络用于对所述身份特征序列与所述语义特征序列进行重建耦合,得到所述重建图像序列;根据所述身份特征序列中不同说话人样本的身份特征计算对比损失;根据所述身份特征序列中相同说话人样本的不同帧的身份特征计算差异损失;基于高斯分布方法计算所述语义特征序列的高斯分布差异损失;根据所述身份特征序列和所述语义特征序列计算相关损失;根据所述训练唇语图片序列和所述重建图像序列计算重建误差损失;将所述语义特征序列输入唇语预测网络中,得到预测文本序列;根据所述预测文本序列和真实文本序列计算监督损失;以所述对比损失、所述差异损失、所述高斯分布差异损失、所述相关损失、所述重建误差损失和所述监督损失作为优化目标,对所述身份与语义深度耦合模型和所述唇语预测网络进行迭代寻优,得到最优唇语识别模型;获取待识别唇语图片序列;将所述待识别唇语图片序列输入最优唇语识别模型中,得到识别文本。优选地,所述2D稠密卷积神经网络和所述3D稠密卷积神经网络均由稠密卷积神经网络框架构成;所述稠密卷积神经网络框架包括依次连接的稠密连接过渡层、池化层和全连接层;所述稠密连接过渡层包括多个稠密连接过渡单元;每个所述稠密连接过渡单元均包括一个稠密连接模块和一个过渡模块;所述唇语预测网络为基于自注意力机制的seq2seq网络;所述唇语预测网络包括输入模块、Encoder模块、Decoder模块和分类模块;所述输入模块分别与所述Encoder模块和所述Decoder模块连接,所述输入模块用于获取语义特征序列和语义特征序列对应的词向量序列,并将语义特征序列中不同时刻的语义向量和所述词向量序列中的词向量嵌入时间位置信息,所述Decoder模块分别与所述Encoder模块和所述分类模块连接,所述Encoder模块用于对嵌入时间位置信息的语义特征序列进行深度特征挖掘,得到第一特征序列;所述Decoder模块用于根据所述第一特征序列的注意力和嵌入时间位置信息的词向量序列的注意力得到第二特征序列,所述分类模块用于根据所述第二特征序列判定得到预测文本序列。优选地,所述对比损失的计算公式为:其中,Lc为对比损失;N表示所述说话人样本的数量;表示第i个样本的第t帧图像;表示第j个样本的第t′帧图像;表示的身份特征;表示的身份特征;y表示不同组样本是否匹配标签,当两组样本身份相同,y=1,否则y=0;margin为设定的阈值。优选地,所述差异损失的计算公式为:其中,Ld为差异损失;N表示所述说话人样本的数量,表示第i个样本的第j帧图像;表示第i个样本的第k帧图像;表示的身份特征;表示的身份特征;T表示说话人样本中的帧数。优选地,所述高斯分布差异损失的计算公式为:其中,Ldd表示所述高斯分布差异损失;表示P组说话人样本中第i个样本的第t帧图像;表示P组样本中第i个样本的第t帧图像的语义特征;ΣP表示P组说话人样本的语义特征的协方差矩阵;ΣQ表示Q组说话人样本的语义特征的协方差矩阵;μP表示P组说话人样本的语义特征的均值向量;μQ表示Q组说话人样本的语义特征的均值向量;det表示矩阵行列式的值;z表示语义编码特征的维度,T表示说话人样本中的帧数。优选地,所述相关损失的计算公式为:其中,LR表示所述相关损失;T表示说话人样本中的帧数;N表示所述说话人样本的数量;表示第i个样本的第t帧图像;表示的身份特征;表示的语义特征。优选地,所述重建误差损失的计算公式为:其中,Lcon表示所述重建误差损失;T表示说话人样本中的帧数;N表示所述说话人样本的数量;表示第i个样本的第t帧图像;表示的身份特征;表示的语义特征,conj表示身份特征向量和语义特征向量连接。优选地,所述监督损失的计算公式为:其中,Lseq表示所述监督损失;N表示所述说话人样本的数量;T表示说话人样本中的帧数;C表示文本类别的数量;为样本i的第t帧的文本类别为j的真实概率,为说话人样本i的第t帧的文本类别为j的预测概率;Si表示所述语义特征的编码矩阵;Ep表示基于自注意力机制的所述唇语预测网络,表示第i个样本的第1帧图像,表示第i个样本的第2帧图像,表示第i个样本的第T帧图像;表示第i个样本的第1帧图像的语义特征;表示第i个样本的第2帧图像的语义特征;表示第i个样本的第T帧图像的语义特征;第t项的唇语预测输出是根据所有帧的语义特征以及第0项到第t-1项的唇语预测输出内容进行判定;优选地,所述以所述对比损失、所述差异损失、所述高斯分布差异损失、所述重建误差损失和所述监督损失作为优化目标,对所述身份与语义深度耦合模型和所述唇语预测网络进行迭代寻优,得到最优唇语识别模型,包括:以加权损失为优化函数,利用Adam优化器对所述身份与语义深度耦合模型以及所述唇语预测网络进行迭代学习,得到优化后的身份与语义深度耦合模型以及唇语预测网络;其中,所述优化函数为L(θ)=Lseq+α1Lc+α2Ld+α3Ldd+α4LR+α5Lcon本文档来自技高网...

【技术保护点】
1.一种用于说话人无关的唇语识别方法,其特征在于,包括:/n获取多个说话人样本的训练唇语图片序列;/n将多个所述训练唇语图片序列输入身份与语义深度耦合模型中,得到身份特征序列、语义特征序列和重建图像序列;所述身份与语义深度耦合模型包括:2D稠密卷积神经网络、3D稠密卷积神经网络和反卷积神经网络;所述2D稠密卷积神经网络用于编码所述训练唇语图片序列的身份特征,得到所述身份特征序列;所述3D稠密卷积神经网络用于编码所述训练唇语图片序列的语义特征,得到所述语义特征序列;所述反卷积神经网络用于对所述身份特征序列与所述语义特征序列进行重建耦合,得到所述重建图像序列;/n根据所述身份特征序列中不同说话人样本的身份特征计算对比损失;/n根据所述身份特征序列中相同说话人样本的不同帧的身份特征计算差异损失;/n基于高斯分布方法计算所述语义特征序列的高斯分布差异损失;/n根据所述身份特征序列和所述语义特征序列计算相关损失;/n根据所述训练唇语图片序列和所述重建图像序列计算重建误差损失;/n将所述语义特征序列输入唇语预测网络中,得到预测文本序列;/n根据所述预测文本序列和真实文本序列计算监督损失;/n以所述对比损失、所述差异损失、所述高斯分布差异损失、所述相关损失、所述重建误差损失和所述监督损失作为优化目标,对所述身份与语义深度耦合模型和所述唇语预测网络进行迭代寻优,得到最优唇语识别模型;/n获取待识别唇语图片序列;/n将所述待识别唇语图片序列输入最优唇语识别模型中,得到识别文本。/n...

【技术特征摘要】
1.一种用于说话人无关的唇语识别方法,其特征在于,包括:
获取多个说话人样本的训练唇语图片序列;
将多个所述训练唇语图片序列输入身份与语义深度耦合模型中,得到身份特征序列、语义特征序列和重建图像序列;所述身份与语义深度耦合模型包括:2D稠密卷积神经网络、3D稠密卷积神经网络和反卷积神经网络;所述2D稠密卷积神经网络用于编码所述训练唇语图片序列的身份特征,得到所述身份特征序列;所述3D稠密卷积神经网络用于编码所述训练唇语图片序列的语义特征,得到所述语义特征序列;所述反卷积神经网络用于对所述身份特征序列与所述语义特征序列进行重建耦合,得到所述重建图像序列;
根据所述身份特征序列中不同说话人样本的身份特征计算对比损失;
根据所述身份特征序列中相同说话人样本的不同帧的身份特征计算差异损失;
基于高斯分布方法计算所述语义特征序列的高斯分布差异损失;
根据所述身份特征序列和所述语义特征序列计算相关损失;
根据所述训练唇语图片序列和所述重建图像序列计算重建误差损失;
将所述语义特征序列输入唇语预测网络中,得到预测文本序列;
根据所述预测文本序列和真实文本序列计算监督损失;
以所述对比损失、所述差异损失、所述高斯分布差异损失、所述相关损失、所述重建误差损失和所述监督损失作为优化目标,对所述身份与语义深度耦合模型和所述唇语预测网络进行迭代寻优,得到最优唇语识别模型;
获取待识别唇语图片序列;
将所述待识别唇语图片序列输入最优唇语识别模型中,得到识别文本。


2.根据权利要求1所述的用于说话人无关的唇语识别方法,其特征在于,所述2D稠密卷积神经网络和所述3D稠密卷积神经网络均由稠密卷积神经网络框架构成;所述稠密卷积神经网络框架包括依次连接的稠密连接过渡层、池化层和全连接层;所述稠密连接过渡层包括多个稠密连接过渡单元;每个所述稠密连接过渡单元均包括一个稠密连接模块和一个过渡模块;
所述唇语预测网络为基于自注意力机制的seq2seq网络;所述唇语预测网络包括输入模块、Encoder模块、Decoder模块和分类模块;
所述输入模块分别与所述Encoder模块和所述Decoder模块连接,所述输入模块用于获取语义特征序列和语义特征序列对应的词向量序列,并将语义特征序列中不同时刻的语义向量和所述词向量序列中的词向量嵌入时间位置信息,所述Decoder模块分别与所述Encoder模块和所述分类模块连接,所述Encoder模块用于对嵌入时间位置信息的语义特征序列进行深度特征挖掘,得到第一特征序列;所述Decoder模块用于根据所述第一特征序列的注意力和嵌入时间位置信息的词向量序列的注意力得到第二特征序列,所述分类模块用于根据所述第二特征序列判定得到预测文本序列。


3.根据权利要求1所述的用于说话人无关的唇语识别方法,其特征在于,所述对比损失的计算公式为:



其中,Lc为对比损失;N表示所述说话人样本的数量;表示第i个样本的第t帧图像;表示第j个样本的第t′帧图像;表示的身份特征;表示的身份特征;y表示不同组样本是否匹配标签,当两组样本身份相同,y=1,否则y=0;margin为设定的阈值。


4.根据权利要求1所述的用于说话人无关的唇语识别方法,其特征在于,所述差异损失的计算公式为:



其中,Ld为差异损失;N表示所述说话人样本的数量,表示第i个样本的第j帧图像;表示第i个样本的第k帧图像;表示的身份特征;表示的身份特征;T表示说话人样本中的帧数。


5.根据权利要求1所述的用于说话人无关的唇语识别方法,其特征在于,所述高斯分布差异损失的计算公式为:









其中,Ldd表示所述高斯分布差异损失;表示P组说话人样本中第i个样本的第t帧图像;表示P组样本中第i个样本的第t帧图像的语义特征;ΣP表示P组说话人样本的语义特征的协方差矩阵;ΣQ表示Q组说话人样本的语义特征的协方差矩阵;μP表示P组说话人样本的语义特征的均值向量;μQ表示Q组说话人样本的语义特征的均值向量;det表示矩阵行列式的值;z表示语义编码特征的维度,T表示说话人样本中的帧数。


6.根据权利要求1所述的用于说话人无关的唇语识别方法,其特征在于,所述...

【专利技术属性】
技术研发人员:路龙宾宁都金小敏滑文强孙涛
申请(专利权)人:西安邮电大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1