一种唇语识别方法及系统技术方案

技术编号：39293781 阅读：11 留言：0更新日期：2023-11-07 11:01

本发明专利技术涉及一种唇语识别方法及系统，属于计算机处理技术领域。该方法包括以下步骤：S1：计算基于卷积网络和Vision Transformer的图像特征编码；S2：进行基于多尺度时间卷积的时序特征提取；S3：进行基于Seq2Seq的文本解码。从模型算法角度出发，为如何提高句子级唇语识别的准确率难题提供一种新方法，通过使用三维卷积与残差网络提取图像特征，融合ViT与多尺度的时间卷积，提高唇部视觉时序特征的提取能力。并且通过使用多尺度时间卷积网络得到各个时间尺度的图像时间序列关系。时间尺度的图像时间序列关系。时间尺度的图像时间序列关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种唇语识别方法及系统

[0001]本专利技术属于计算机处理
，涉及一种唇语识别方法及系统。

技术介绍

[0002]句子级的唇语识别是一个极具挑战的研究问题，唇语识别即唇读，指的是通过观察说话者的唇部动作来理解其语言的一种方法。对于唇读的研究已经有几十年，在语音识别
中，唇读可以作为辅助信息，使得语音识别系统的准确率提升。尤其在嘈杂环境下或者是说话者口型模糊不清晰时，通过结合唇读和声学信息可以提升识别系统的鲁棒性。唇读研究为开发辅助设备、改善语音识别系统性能提供了重要的基础和应用价值。
[0003]然而当下主流的研究是单单利用卷积或者注意力机制来提取唇部的视觉特征以捕获短距离像素特征来完成的孤立词的识别。以卷积识别为例，即通过三维卷积对视频中的唇部区域提取特征，进行三维到二维的转换，然后再利用残差网络进一步提取唇部图像特征，通过多尺度时间卷积提取其时序信息，最后通过softmax回归进行分类。虽然该模型在孤立词上的识别能有较高的准确率，但在句子级的唇语识别的研究上仍然有很大的挑战。

技术实现思路

[0004]有鉴于此，本专利技术的目的在于提供一种唇语识别方法及系统。
[0005]为达到上述目的，本专利技术提供如下技术方案：
[0006]一种唇语识别方法，该方法包括以下步骤：
[0007]S1：计算基于卷积网络和VisionTransformer的图像特征编码；
[0008]S2：进行基于多尺度时间卷积的时序特征提取；
[0009]S3：进行基...

【技术保护点】

【技术特征摘要】
1.一种唇语识别方法，其特征在于：该方法包括以下步骤：S1：计算基于卷积网络和Vision Transformer的图像特征编码；S2：进行基于多尺度时间卷积的时序特征提取；S3：进行基于Seq2Seq的文本解码。2.根据权利要求1所述的一种唇语识别方法，其特征在于：所述S1具体为：首先进行数据集预处理，将数据集中的视频转换为序列图像帧，并且将唇部区域剪裁下来转换为灰度图；由于Transformer架构需要输入嵌入式向量序列，所以需将残差网络生成的特征图序列x∈R
W
×
H
×
C
按块划分为固定大小的块x
p
∈R
N
×
(P
×
P
×
C)
，其中W为输入特征图的宽度，H为输入特征图的高度其中，C为输入特征图的通道数，N表示块数，P表示块的边长；再将其通过线性投影E，引入分类标记x
cls
,加上位置嵌入E
pos
生成嵌入向量z0,如公式(1)所示：其中p表示特征图像块长度；并且输入向量输入到Vision Transformer，Transformer层中层叠的编码器包含着前馈网络和多头自注意力模块；多头自注意力模块将输入序列z生成query(Q)、key(K)、value(V)三个矩阵，再让Q和K进行点乘运算得到权重系数，并通过V进行加权；其工作方式如公式(2)所示：其中d表示输入序列的长度；多头注意力机制是一种注意力机制的扩展形式，用于处理序列数据的建模和处理任务；它在自注意力机制的基础上引入了多个并行的注意力头，来提升模型的表示能力和学习能力；多头注意力机制对输入序列进行h次的自注意力计算，每个头使用不同的投影矩阵(W
Q
、W
K
、W
v
)进行线性变换，从而在不同的子空间进行注意力计...

【专利技术属性】
技术研发人员：李鹏华，胡耀文，侯杰，利节，项盛，尹韶云，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人