一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法技术

技术编号:37846964 阅读:17 留言:0更新日期:2023-06-14 22:32
本发明专利技术属于计算机视觉中的视觉语音识别技术领域,具体涉及一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,针对当前唇语识别存在的问题,提出了一种使用时间卷积网络来更准确地获取连续序列特征,并且在数据预处理阶段应用时间掩蔽策略,来增强特征提取鲁棒性的汉语唇语句子级识别方法,包括数据预处理、模型训练和唇语识别三个步骤。本发明专利技术提出的方法,在汉语普通话句子数据集CMLR上,取得了较其它参与对比的句子级汉语唇语识别算法更好的表现。的表现。的表现。

【技术实现步骤摘要】
一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法


[0001]本专利技术属于计算机视觉中的视觉语音识别
,具体涉及一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法。

技术介绍

[0002]唇语识别(Lip Recognition),也称为视觉语音识别(Visual speech recognition),唇读(Lip reading),其目的是通过分析说话者唇部图片序列运动信息来推测其所说内容。这项研究涉及到图像分类、语音识别和自然语言处理等多个领域,在辅助语音识别、人脸安全性身份检测、辅助听觉障碍学生教育等方面有着广阔的应用空间。
[0003]唇语识别研究已经在英语的单词和句子级层面取得了一定的成果。但是对使用人数最多的语言——汉语,进行的唇语识别研究还很少。汉语唇语识别文献寥寥可数。比较有代表性的汉语唇语识别研究有Zhao等人于2019年提出的综合拼音、声调和字符预测的级联序列

序列模型CSSMCM;以及将汉语唇语识别过程分为图像

拼音(P2P)、拼音

汉字序列(P2CC)两个子过程的LipCh

Net;还有在LipCh

Net两段式基础上进一步改进的CHSLR

VP。这些模型方法都是利用双向长短时记忆网络(Bi

LSTM)或双向门控循环单元(Bi

GRU)循环卷积来对序列进行建模,但是Bi

LSTM和Bi
r/>GRU网络的遗忘门存在信息“泄露”的问题,其门控机制并不能准确提取唇形细微变化的历史特征信息,而且存在着串行计算时间长,训练时内存消耗大的缺点。这导致上述汉语唇语识别模型,在提取连续序列特征以实现高识别准确率方面,仍有所不足。

技术实现思路

[0004]本专利技术的目的在于针对唇语识别存在的问题,提出了一种使用时间卷积网络(Temporal Convolutional Networks,TCN)来更准确地获取连续序列特征,并且在数据预处理阶段应用时间掩蔽策略,来增强特征提取鲁棒性的汉语唇语句子级识别方法,对比实验数据表明,本专利技术提出的方法,在汉语普通话句子数据集CMLR上,取得了较其它参与对比的句子级汉语唇语识别算法更低的字符错误率,即更高的识别准确率。
[0005]一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,为句子级唇语识别方法,具体包括以下几个步骤:
[0006]步骤1:数据预处理,对数据集进行预处理,得到唇部区域的图像序列、汉字序列和对应的拼音序列:
[0007]步骤2:模型训练,利用步骤1中预处理得到的唇部区域的图像序列、汉字序列和对应的拼音序列,对神经网络模型进行训练;
[0008]步骤3:唇语识别,利用步骤2训练得到的神经网络模型,对唇语视频进行句子级汉语识别。
[0009]优选地,所述步骤1具体又分为2个步骤:
[0010]步骤1.1:视频转换,将样本的视频转换为序列图像帧,确定每帧中唇部的区域,对
像素值进行归一化处理,得到区域图像序列;
[0011]步骤1.2:文本转换,将样本的句子文本,即汉字序列,转换为对应的拼音序列。
[0012]优选地,所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,所述步骤1.1视频转换得到的图像序列,每一帧图像都是RGB三通道彩色图像,在每个图像帧中,检测并跟踪68个面部标志点,再用64
×
128的边界框裁剪出唇部区域,最后将裁减后的区域通过OpenCV进一步转换为灰度图,并根据训练集中所有帧图像的总体像素灰度均值和方差进行归一化处理。
[0013]优选地,所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,所述步骤1的汉字序列转换为拼音序列的转换过程中,每句话中各汉字的拼音之间以空格进行分隔。
[0014]优选地,所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,在所述步骤1中,引入了时间掩蔽策略进行数据增强处理,对输入的图像序列,应用时间掩蔽,使从t0开始的s个连续的时间步长[t0,t0+s)被掩蔽,其中s为掩蔽时间步长参数,从区间[0,T]内选取,T为设定的最大时间掩蔽步长参数,t0从区间[0,τ

s]内选取,为避免掩蔽掉重要信息,最大时间掩蔽步长T不能超过时间步长τ的p倍,即T≤τ
×
p,其中p≤0.5。
[0015]优选地,所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,所述步骤2的神经网络模型,包括拼音序列识别子网络模型和汉字序列识别子网络模型两部分。
[0016]优选地,所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,所述拼音序列识别子网络模型主要由三维卷积和最大池化层、ResNet

18子网络层、自注意力层(Self

attention)、时间卷积网络层、全连接层和Softmax层构成,由以区域图像序列作为样本特征,以拼音序列作为标签的数据集训练得到。
[0017]优选地,所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,所述汉字序列识别子网络模型为编码器

解码器架构,由以拼音序列作为样本特征,以汉字序列作为标签的数据集训练得到。
[0018]优选地,所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,所述步骤3对唇语视频进行句子级的汉语识别的具体步骤为:
[0019]步骤3.1:将待识别的唇语视频输入训练好的拼音序列识别子网络模型,利用贪婪搜索(greedy search)算法对拼音序列识别子网络模型Softmax层输出的序列进行解码,在每个时间步上寻找概率最大的拼音字母,并去掉连续重复字母和空白分隔符,得到最优的拼音识别序列;
[0020]步骤3.2:将上一步骤得到的拼音识别序列输入汉字序列识别子网络模型,得到汉字序列识别子网络模型Softmax层输出的序列,利用波束搜索(beam search)算法对其解码,最终得到汉字序列。
[0021]本专利技术的优点在于,提出了一种使用时间卷积网络(Temporal Convolutional Networks,TCN)来更好地获取连续时间特征,并在数据预处理阶段应用时间掩蔽策略,来增强特征提取鲁棒性的句子级汉语唇语识别方法。本专利技术所提出的算法,较现有的句子级汉语唇语识别算法,具有更高的识别准确率。
附图说明
[0022]图1是一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法示意图;
[0023]图2是拼音序列识别子网络结构图;
[0024]图3是自注意力层的结构示意图;
[0025]图4是汉字序列识别子网络模型的结构图;
[0026]图5是波束宽度对CER的影响示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,其特征在于,所述方法为句子级唇语识别方法,具体包括以下几个步骤:步骤1:数据预处理,对数据集进行预处理,得到唇部区域的图像序列、汉字序列和对应的拼音序列:步骤2:模型训练,利用步骤1中预处理得到的唇部区域的图像序列、汉字序列和对应的拼音序列,对神经网络模型进行训练;步骤3:唇语识别,利用步骤2训练得到的神经网络模型,对唇语视频进行句子级汉语识别。2.根据权利要求1所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,其特征在于,所述步骤1具体又分为2个步骤:步骤1.1:视频转换,将样本的视频转换为序列图像帧,确定每帧中唇部的区域,对像素值进行归一化处理,得到区域图像序列;步骤1.2:文本转换,将样本的句子文本,即汉字序列,转换为对应的拼音序列。3.根据权利要求2所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,其特征在于,所述步骤1.1视频转换得到的图像序列,每一帧图像都是RGB三通道彩色图像,在每个图像帧中,检测并跟踪68个面部标志点,再用64
×
128的边界框裁剪出唇部区域,最后将裁减后的区域通过OpenCV进一步转换为灰度图,并根据训练集中所有帧图像的总体像素灰度均值和方差进行归一化处理。4.根据权利要求2所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,其特征在于,所述步骤1的汉字序列转换为拼音序列的转换过程中,每句话中各汉字的拼音之间以空格进行分隔。5.根据权利要求1所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,其特征在于,在所述步骤1中,引入了时间掩蔽策略进行数据增强处理,对输入的图像序列,应用时间掩蔽,使从t0开始的s个连续的时间步长[t0,t0+s)被掩蔽,其中s为掩蔽时间步长参数,从区间[0,T]内选取,T为设定的最大时间掩蔽步长参数...

【专利技术属性】
技术研发人员:刘庆王继超华钧
申请(专利权)人:北京科能腾达信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1