【技术实现步骤摘要】
一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法
[0001]本专利技术属于计算机视觉中的视觉语音识别
,具体涉及一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法。
技术介绍
[0002]唇语识别(Lip Recognition),也称为视觉语音识别(Visual speech recognition),唇读(Lip reading),其目的是通过分析说话者唇部图片序列运动信息来推测其所说内容。这项研究涉及到图像分类、语音识别和自然语言处理等多个领域,在辅助语音识别、人脸安全性身份检测、辅助听觉障碍学生教育等方面有着广阔的应用空间。
[0003]唇语识别研究已经在英语的单词和句子级层面取得了一定的成果。但是对使用人数最多的语言——汉语,进行的唇语识别研究还很少。汉语唇语识别文献寥寥可数。比较有代表性的汉语唇语识别研究有Zhao等人于2019年提出的综合拼音、声调和字符预测的级联序列
‑
序列模型CSSMCM;以及将汉语唇语识别过程分为图像
‑
拼音(P2P)、拼音
‑r/>汉字序列(P2本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,其特征在于,所述方法为句子级唇语识别方法,具体包括以下几个步骤:步骤1:数据预处理,对数据集进行预处理,得到唇部区域的图像序列、汉字序列和对应的拼音序列:步骤2:模型训练,利用步骤1中预处理得到的唇部区域的图像序列、汉字序列和对应的拼音序列,对神经网络模型进行训练;步骤3:唇语识别,利用步骤2训练得到的神经网络模型,对唇语视频进行句子级汉语识别。2.根据权利要求1所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,其特征在于,所述步骤1具体又分为2个步骤:步骤1.1:视频转换,将样本的视频转换为序列图像帧,确定每帧中唇部的区域,对像素值进行归一化处理,得到区域图像序列;步骤1.2:文本转换,将样本的句子文本,即汉字序列,转换为对应的拼音序列。3.根据权利要求2所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,其特征在于,所述步骤1.1视频转换得到的图像序列,每一帧图像都是RGB三通道彩色图像,在每个图像帧中,检测并跟踪68个面部标志点,再用64
×
128的边界框裁剪出唇部区域,最后将裁减后的区域通过OpenCV进一步转换为灰度图,并根据训练集中所有帧图像的总体像素灰度均值和方差进行归一化处理。4.根据权利要求2所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,其特征在于,所述步骤1的汉字序列转换为拼音序列的转换过程中,每句话中各汉字的拼音之间以空格进行分隔。5.根据权利要求1所述的一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法,其特征在于,在所述步骤1中,引入了时间掩蔽策略进行数据增强处理,对输入的图像序列,应用时间掩蔽,使从t0开始的s个连续的时间步长[t0,t0+s)被掩蔽,其中s为掩蔽时间步长参数,从区间[0,T]内选取,T为设定的最大时间掩蔽步长参数...
【专利技术属性】
技术研发人员:刘庆,王继超,华钧,
申请(专利权)人:北京科能腾达信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。