一种基于双流神经网络的唇语识别方法及系统技术方案

技术编号：35407870 阅读：12 留言：0更新日期：2022-11-03 11:02

本发明专利技术提供一种基于双流神经网络的唇语识别方法及系统，方法包括：获取唇部运动的视频片段，并基于所述视频片段提取局部帧序列和特征点热力图；应用基于3D卷积

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双流神经网络的唇语识别方法及系统

[0001]本专利技术属于机器视觉
，具体涉及到一种基于双流神经网络的唇语识别方法及系统。

技术介绍

[0002]唇语识别也叫视觉语言识别，指的是编码讲话时嘴唇的运动并解码出其代表的语义信息，而不依赖于任何音频。这项工作有着十分广泛的应用场景，比如嘈杂环境下的视觉监听，辅助语言功能障碍人士重新讲话。它还能提升语音识别性能，已经有实验证实了嘴唇运动视频与语音双模态融合会得到比任何一个单模态更高的识别准确率。唇语识别模型能够通过学习自然场景下的唇语运动表征，进而识别生成式嘴唇动作的高阶语义不规范，在说话人脸伪造检测方面取得最先进的性能。
[0003]唇语识别已经有二十多年的研究历史，该任务包含两个主要的环节，分别关注于空域和时域的特征表示。早期学者主要通过改进局部二值模式算法(LBP)或者离散余弦变换从唇部感兴趣区域(region of interest，ROI)提取紧致空域特征。再通过隐马尔科夫模型对特征进行时序建模。近年来深度学习很大程度推动了唇语识别领域的发展，但绝大部分都是采用前端浅层3D卷积+深层2D卷积的组合。因为这种组合方式已经在视频时空域的信息获取方面表现出较高的性能，所以研究成果主要集中在后端时间序列网络的探索与改良。
[0004]现有的方法存在两个较为关键的问题：其一，前端网络对唇动视频进行特征建模，对整个模型的影响是直接并且显著的，应该被给予更多的关注。唇读模型中3D+2D卷积的组合方式可以高效的提取时空域的特征表示，并且序列后端在时域...

【技术保护点】

【技术特征摘要】
1.一种基于双流神经网络的唇语识别方法，其特征是，所述方法包括：获取唇部运动的视频片段，并基于所述视频片段提取局部帧序列和特征点热力图；应用基于3D卷积
‑
残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征；应用基于2D卷积
‑
残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征；应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理，分别获取时空分支预测结果和空间分支预测结果；对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果。2.如权利要求1所述的方法，其特征是，所述应用基于2D卷积
‑
残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理，获取空间特征，包括：应用基于2D卷积
‑
残差网络的所述空间视角前端网络对所述局部帧序列进行处理获取空间特征图；应用所述适应性空间语义处理模型对所述空间特征图和所述特征点热力图进行拼接处理，得到第一空间结点特征；分别对第一空间结点特征和所述空间特征图进行全局池化后进行连接，得到所述空间特征。3.如权利要求2所述的方法，其特征是，所述应用所述适应性空间语义处理模型对所述空间特征图和所述特征点热力图进行拼接处理，得到第一空间结点特征，包括：根据所述空间特征图和所述特征点热力图获取结点特征，将所述结点特征与所述特征点热力图的转秩进行拼接，得到结点图；将所述结点图输入所述适应性空间语义处理模型进行处理，得到所述第一空间结点特征。4.如权利要求3所述的方法，其特征是，所述将所述结点图输入所述适应性空间语义处理模型进行处理，得到所述第一空间结点特征，包括：根据所述结节图中结点之间的关系更新所述结点图中边的权重，并结合当前邻接矩阵形成新的邻接矩阵；将所述新的邻接矩阵与所述结点图中结点特征相乘，并与所述结点图进行卷积计算得到所述第一空间结点特征。5.如权利要求3所述的方法，其特征是，所述根据所述空间特征图和所述特征点热力图获取结点特征，包括：计算所述空间特征图与所述特征点热力图...

【专利技术属性】
技术研发人员：张雪毅，张成伟，隋金坪，盛常冲，邓婉霞，刘丽，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人