一种基于双流神经网络的唇语识别方法及系统技术方案

技术编号:35407870 阅读:12 留言:0更新日期:2022-11-03 11:02
本发明专利技术提供一种基于双流神经网络的唇语识别方法及系统,方法包括:获取唇部运动的视频片段,并基于所述视频片段提取局部帧序列和特征点热力图;应用基于3D卷积

【技术实现步骤摘要】
一种基于双流神经网络的唇语识别方法及系统


[0001]本专利技术属于机器视觉
,具体涉及到一种基于双流神经网络的唇语识别方法及系统。

技术介绍

[0002]唇语识别也叫视觉语言识别,指的是编码讲话时嘴唇的运动并解码出其代表的语义信息,而不依赖于任何音频。这项工作有着十分广泛的应用场景,比如嘈杂环境下的视觉监听,辅助语言功能障碍人士重新讲话。它还能提升语音识别性能,已经有实验证实了嘴唇运动视频与语音双模态融合会得到比任何一个单模态更高的识别准确率。唇语识别模型能够通过学习自然场景下的唇语运动表征,进而识别生成式嘴唇动作的高阶语义不规范,在说话人脸伪造检测方面取得最先进的性能。
[0003]唇语识别已经有二十多年的研究历史,该任务包含两个主要的环节,分别关注于空域和时域的特征表示。早期学者主要通过改进局部二值模式算法(LBP)或者离散余弦变换从唇部感兴趣区域(region of interest,ROI)提取紧致空域特征。再通过隐马尔科夫模型对特征进行时序建模。近年来深度学习很大程度推动了唇语识别领域的发展,但绝大部分都是采用前端浅层3D卷积+深层2D卷积的组合。因为这种组合方式已经在视频时空域的信息获取方面表现出较高的性能,所以研究成果主要集中在后端时间序列网络的探索与改良。
[0004]现有的方法存在两个较为关键的问题:其一,前端网络对唇动视频进行特征建模,对整个模型的影响是直接并且显著的,应该被给予更多的关注。唇读模型中3D+2D卷积的组合方式可以高效的提取时空域的特征表示,并且序列后端在时域的特征表达方面进行了加强,但整个架构中对空域的特征提取是存在缺陷的,没有让其得到最好的表达。其二,唇语识别的关键是深度神经网络对嘴唇动力学的学习,而嘴唇拓扑结构关系是嘴唇动力学的显性表达。很少的研究学者关注这一部分,现有的方法中都不能显性并且高效的提取嘴唇的拓扑结构关系。因此需要提取一种新的解决方案,在增强空域特征的同时高效的充分融合嘴唇动力学表征,来获得更全面的特征表示。

技术实现思路

[0005]本专利技术提供一种基于双流神经网络的唇语识别方法及系统,以解决现有的特征表示不全的问题。
[0006]基于上述目的,本专利技术实施例提供了一种基于双流神经网络的唇语识别方法,包括:获取唇部运动的视频片段,并基于所述视频片段提取局部帧序列和特征点热力图;应用基于3D卷积

残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征;应用基于2D卷积

残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理,获取空间特征;应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理,分别获取时空分支预测结果和空间分支预测结果;
对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果。
[0007]可选的,所述应用基于2D卷积

残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理,获取空间特征,包括:应用基于2D卷积

残差网络的所述空间视角前端网络对所述局部帧序列进行处理获取空间特征图;应用所述适应性空间语义处理模型对所述空间特征图和所述特征点热力图进行拼接处理,得到第一空间结点特征;分别对第一空间结点特征和所述空间特征图进行全局池化后进行连接,得到所述空间特征。
[0008]可选的,所述应用所述适应性空间语义处理模型对所述空间特征图和所述特征点热力图进行拼接处理,得到第一空间结点特征,包括:根据所述空间特征图和所述特征点热力图获取结点特征,将所述结点特征与所述特征点热力图的转秩进行拼接,得到结点图;将所述结点图输入所述适应性空间语义处理模型进行处理,得到所述第一空间结点特征。
[0009]可选的,所述将所述结点图输入所述适应性空间语义处理模型进行处理,得到所述第一空间结点特征,包括:根据所述结节图中结点之间的关系更新所述结点图中边的权重,并结合当前邻接矩阵形成新的邻接矩阵;将所述新的邻接矩阵与所述结点图中结点特征相乘,并与所述结点图进行卷积计算得到所述第一空间结点特征。
[0010]可选的,所述根据所述空间特征图和所述特征点热力图获取结点特征,包括:计算所述空间特征图与所述特征点热力图进行矩阵相乘;对所述空间特征图与所述特征点热力图的矩阵相乘结果进行全局平均池化,得到结点特征。
[0011]可选的,所述时空分支预测结果和所述空间分支预测结果表示预测的所述视频片段所属各唇语分类的概率,所述对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果,包括:将所述时空分支预测结果和所述空间分支预测结果中,属于同一唇语分类的概率相加,得到所述唇语分类的最终概率;将得到的各唇语分类的最终概率组成最终预测结果。
[0012]可选的,所述基于所述视频片段提取局部帧序列和特征点热力图,包括:基于所述视频片段应用预训练的热力图提取器提取局部热力图,将所述局部热力图与全局热力图拼接得到所述特征点热力图,所述全局热力图为尺寸与所述局部热力图相同,且数值全为1的二维矩阵;应用图裁切方式对所述视频片段中各帧进行裁切,获取各帧的唇部感兴趣区域,组成局部帧序列。
[0013]基于同一专利技术构思,本专利技术实施例还提出了一种基于双流神经网络的唇语识别系统,包括:信息获取模块,用于获取唇部运动的视频片段,并基于所述视频片段提取局部帧序列和特征点热力图;时空特征获取模块,用于应用基于3D卷积

残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征;空间特征获取模块,用于应用基于2D卷积

残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理,获取空间特征;分支预测模块,用于应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理,分别获取时空分支预测结果和空间分支预测结果;融合预测模块,用于对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果。
[0014]基于同一专利技术构思,本专利技术实施例还提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述
的方法。
[0015]基于同一专利技术构思,本专利技术实施例还提出了一种计算机存储介质,存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行前述的方法。
[0016]本专利技术的有益效果是:从上面所述可以看出,本专利技术实施例提供的一种基于双流神经网络的唇语识别方法及系统,方法包括:获取唇部运动的视频片段,并基于所述视频片段提取局部帧序列和特征点热力图;应用基于3D卷积

残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征;应用基于2D卷积

残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理,获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双流神经网络的唇语识别方法,其特征是,所述方法包括:获取唇部运动的视频片段,并基于所述视频片段提取局部帧序列和特征点热力图;应用基于3D卷积

残差网络的时空视角前端网络对所述局部帧序列进行处理并获取时空特征;应用基于2D卷积

残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理,获取空间特征;应用多尺度时间卷积网络分别对所述时空特征和所述空间特征进行处理,分别获取时空分支预测结果和空间分支预测结果;对所述时空分支预测结果和所述空间分支预测结果进行融合得到最终预测结果。2.如权利要求1所述的方法,其特征是,所述应用基于2D卷积

残差网络的空间视角前端网络结合适应性空间语义处理模型对所述局部帧序列和所述特征点热力图进行处理,获取空间特征,包括:应用基于2D卷积

残差网络的所述空间视角前端网络对所述局部帧序列进行处理获取空间特征图;应用所述适应性空间语义处理模型对所述空间特征图和所述特征点热力图进行拼接处理,得到第一空间结点特征;分别对第一空间结点特征和所述空间特征图进行全局池化后进行连接,得到所述空间特征。3.如权利要求2所述的方法,其特征是,所述应用所述适应性空间语义处理模型对所述空间特征图和所述特征点热力图进行拼接处理,得到第一空间结点特征,包括:根据所述空间特征图和所述特征点热力图获取结点特征,将所述结点特征与所述特征点热力图的转秩进行拼接,得到结点图;将所述结点图输入所述适应性空间语义处理模型进行处理,得到所述第一空间结点特征。4.如权利要求3所述的方法,其特征是,所述将所述结点图输入所述适应性空间语义处理模型进行处理,得到所述第一空间结点特征,包括:根据所述结节图中结点之间的关系更新所述结点图中边的权重,并结合当前邻接矩阵形成新的邻接矩阵;将所述新的邻接矩阵与所述结点图中结点特征相乘,并与所述结点图进行卷积计算得到所述第一空间结点特征。5.如权利要求3所述的方法,其特征是,所述根据所述空间特征图和所述特征点热力图获取结点特征,包括:计算所述空间特征图与所述特征点热力图...

【专利技术属性】
技术研发人员:张雪毅张成伟隋金坪盛常冲邓婉霞刘丽
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1