一种唇语识别方法及系统技术方案

技术编号:39293781 阅读:11 留言:0更新日期:2023-11-07 11:01
本发明专利技术涉及一种唇语识别方法及系统,属于计算机处理技术领域。该方法包括以下步骤:S1:计算基于卷积网络和Vision Transformer的图像特征编码;S2:进行基于多尺度时间卷积的时序特征提取;S3:进行基于Seq2Seq的文本解码。从模型算法角度出发,为如何提高句子级唇语识别的准确率难题提供一种新方法,通过使用三维卷积与残差网络提取图像特征,融合ViT与多尺度的时间卷积,提高唇部视觉时序特征的提取能力。并且通过使用多尺度时间卷积网络得到各个时间尺度的图像时间序列关系。时间尺度的图像时间序列关系。时间尺度的图像时间序列关系。

【技术实现步骤摘要】
一种唇语识别方法及系统


[0001]本专利技术属于计算机处理
,涉及一种唇语识别方法及系统。

技术介绍

[0002]句子级的唇语识别是一个极具挑战的研究问题,唇语识别即唇读,指的是通过观察说话者的唇部动作来理解其语言的一种方法。对于唇读的研究已经有几十年,在语音识别
中,唇读可以作为辅助信息,使得语音识别系统的准确率提升。尤其在嘈杂环境下或者是说话者口型模糊不清晰时,通过结合唇读和声学信息可以提升识别系统的鲁棒性。唇读研究为开发辅助设备、改善语音识别系统性能提供了重要的基础和应用价值。
[0003]然而当下主流的研究是单单利用卷积或者注意力机制来提取唇部的视觉特征以捕获短距离像素特征来完成的孤立词的识别。以卷积识别为例,即通过三维卷积对视频中的唇部区域提取特征,进行三维到二维的转换,然后再利用残差网络进一步提取唇部图像特征,通过多尺度时间卷积提取其时序信息,最后通过softmax回归进行分类。虽然该模型在孤立词上的识别能有较高的准确率,但在句子级的唇语识别的研究上仍然有很大的挑战。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种唇语识别方法及系统。
[0005]为达到上述目的,本专利技术提供如下技术方案:
[0006]一种唇语识别方法,该方法包括以下步骤:
[0007]S1:计算基于卷积网络和VisionTransformer的图像特征编码;
[0008]S2:进行基于多尺度时间卷积的时序特征提取;
[0009]S3:进行基于Seq2Seq的文本解码。
[0010]可选的,所述S1具体为:
[0011]首先进行数据集预处理,将数据集中的视频转换为序列图像帧,并且将唇部区域剪裁下来转换为灰度图;
[0012]由于Transformer架构需要输入嵌入式向量序列,所以需将残差网络生成的特征图序列x∈R
W
×
H
×
C
按块划分为固定大小的块x
p
∈R
N
×
(P
×
P
×
C)
,其中W为输入特征图的宽度,H为输入特征图的高度其中,C为输入特征图的通道数,N表示块数,P表示块的边长;再将其通过线性投影E,引入分类标记x
cls
,加上位置嵌入E
pos
生成嵌入向量z0,如公式(1)所示:
[0013][0014]其中p表示特征图像块长度;
[0015]并且输入向量输入到Vision Transformer,Transformer层中层叠的编码器包含着前馈网络和多头自注意力模块;多头自注意力模块将输入序列z生成query(Q)、key(K)、value(V)三个矩阵,再让Q和K进行点乘运算得到权重系数,并通过V进行加权;其工作方式如公式(2)所示:
[0016][0017]其中d表示输入序列的长度;
[0018]多头注意力机制是一种注意力机制的扩展形式,用于处理序列数据的建模和处理任务;它在自注意力机制的基础上引入了多个并行的注意力头,来提升模型的表示能力和学习能力;多头注意力机制对输入序列进行h次的自注意力计算,每个头使用不同的投影矩阵(W
Q
、W
K
、W
v
)进行线性变换,从而在不同的子空间进行注意力计算;将多个结果拼接在一起,通过W
MHA
投影得到最终输出序列;其工作方式如公式(3)所示:
[0019]MHA(Q,K,V)=[head1,head2,...,head
h
]W
MHA
ꢀꢀꢀꢀ
(3)
[0020]其中
[0021][0022]可选的,所述S2具体为:
[0023]为获取不同时间尺度的唇部运动信息,将ViT的输出分为三个分支,分别输入到卷积核大小K为3,5,7的时间卷积核中,并将其输出拼接送入下一级。
[0024]可选的,所述S3具体为:
[0025]Seq2Seq注意力模块是视觉编码器和汉字解码器之间的注意力模块;其作用是根据解码的当前状态,对视觉编码器生成的特征进行加权求和,以提取当前解码步骤相关的视觉信息;
[0026]以视觉特征序列e
v
作为Seq2Seq模块的输入,通过注意力上下文向量和解码器输出拼接计算出每个时间步的字符概率分布,如公式(5)所示:
[0027][0028]其中表示视觉编码器的隐藏层向量,表示注意力模块计算得到的上下文向量;
[0029]模型的目标是预测视频中的汉字,根据条件概率公式可得出模型的损失函数,如公式(6)所示:
[0030]L=

∑ln P(c
n
|x,c1,

,c
n
‑1)
ꢀꢀꢀꢀꢀ
(6)
[0031]其中c1,

,c
n
‑1表示汉字序列;
[0032]在训练过程中使用Adam优化器对模型参数进行优化,同时使用余弦调度器;当训练轮次达到设定的上限值时,得到训练好的模型用于实现句子级的唇语识别。
[0033]一种计算机系统,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法。
[0034]本专利技术的有益效果在于:从模型算法角度出发,为如何提高句子级唇语识别的准确率难题提供一种新方法,通过使用三维卷积与残差网络提取图像特征,融合ViT(Vision Transformer)与多尺度的时间卷积,提高唇部视觉时序特征的提取能力。并且通过使用多尺度时间卷积网络得到各个时间尺度的图像时间序列关系。
[0035]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0036]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作优选的详细描述,其中:
[0037]图1为基于时间卷积网络和Vision Transformer的技术流程图;
[0038]图2为Vision Transformer图像特征提取流程;
[0039]图3为多尺度时间卷积网络结构图;
[0040]图4为基于Seq2Seq的文本解码模块。
具体实施方式
[0041]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需要说明的是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种唇语识别方法,其特征在于:该方法包括以下步骤:S1:计算基于卷积网络和Vision Transformer的图像特征编码;S2:进行基于多尺度时间卷积的时序特征提取;S3:进行基于Seq2Seq的文本解码。2.根据权利要求1所述的一种唇语识别方法,其特征在于:所述S1具体为:首先进行数据集预处理,将数据集中的视频转换为序列图像帧,并且将唇部区域剪裁下来转换为灰度图;由于Transformer架构需要输入嵌入式向量序列,所以需将残差网络生成的特征图序列x∈R
W
×
H
×
C
按块划分为固定大小的块x
p
∈R
N
×
(P
×
P
×
C)
,其中W为输入特征图的宽度,H为输入特征图的高度其中,C为输入特征图的通道数,N表示块数,P表示块的边长;再将其通过线性投影E,引入分类标记x
cls
,加上位置嵌入E
pos
生成嵌入向量z0,如公式(1)所示:其中p表示特征图像块长度;并且输入向量输入到Vision Transformer,Transformer层中层叠的编码器包含着前馈网络和多头自注意力模块;多头自注意力模块将输入序列z生成query(Q)、key(K)、value(V)三个矩阵,再让Q和K进行点乘运算得到权重系数,并通过V进行加权;其工作方式如公式(2)所示:其中d表示输入序列的长度;多头注意力机制是一种注意力机制的扩展形式,用于处理序列数据的建模和处理任务;它在自注意力机制的基础上引入了多个并行的注意力头,来提升模型的表示能力和学习能力;多头注意力机制对输入序列进行h次的自注意力计算,每个头使用不同的投影矩阵(W
Q
、W
K
、W
v
)进行线性变换,从而在不同的子空间进行注意力计...

【专利技术属性】
技术研发人员:李鹏华胡耀文侯杰利节项盛尹韶云
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1