一种基于生成对抗网络和时间卷积网络的唇语识别方法技术

技术编号:28504706 阅读:33 留言:0更新日期:2021-05-19 22:56
本发明专利技术公开了一种基于生成对抗网络和时间卷积网络的唇语识别方法。该方法首先通过ResNet角度分类器判断唇部偏转角度,之后利用的GAN二阶段转换器进行唇部矫正,最后送入TCN中进行特征识别分类生成唇语识别结果的高精度唇语识别方法;该方法克服了传统卷积模型无法解决的唇部特征提取受实际环境中光照强度、光照角度、识别角度、说话人身份等不确定性的影响,使唇语识别的准确性显著提高。本方法设计了密集多角度唇部变化原始数据,不仅实现了单个摄像机自身图像的连续,而且最大限度地实现了唇部图像在观测范围内的连续,有效解决现有多角度模型无法处理实际环境中连续变化的唇部图像的问题,从而提高唇语识别精度。从而提高唇语识别精度。从而提高唇语识别精度。

【技术实现步骤摘要】
一种基于生成对抗网络和时间卷积网络的唇语识别方法


[0001]本专利技术属于人工智能和深度学习领域,具体是一种基于生成对抗网络和时间卷积网络的唇语识别方法。

技术介绍

[0002]随着科学技术的发展和硬件制造水平的提升,计算机所能处理的信息量也在成指数级增长,这使得以深度学习为基础的人工智能技术进入快速发展阶段,人工智能技术已经越来越广的应用到了人们的日常生活中,潜移默化地改变着人们的生产生活方式,成为人类社会中不可缺少的重要技术之一。人工智能技术的应用场景涵盖生产生活的各个方面,包括语音识别、智能医疗、机器视觉、智能问答系统、无人驾驶等。人工智能技术在这些领域取得的成功以及积累的经验更加推进了社会对于这一新兴技术的关注,加速人工智能技术的发展。
[0003]唇语识别是人工智能技术的一个重要应用领域,在社会生产生活的诸多领域具有举足轻重的地位,有非常广的应用前景,例如:
[0004]1.基于唇部特征的活体检测:在一些需要身份验证的场景中往往需要确定对象的真实生理特征,对象需要完成转动头部、眨眼、读出一段话等一系列指定动作来完成验本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络和时间卷积网络的唇语识别方法,其特征在于,该方法包括以下步骤:S1、制作原始数据;所述原始数据包括识别网络原始数据和密集多角度唇部变化原始数据;S2、分别对原始数据的每帧或每张图像用人脸标注算法标注人脸特征点,得到两个特征点位置数组;S3、根据特征点位置数组中的原始数据特征点矩阵和平均人脸特征点矩阵,对原始数据的每帧或每张图像中的人脸分别进行人脸对齐,得到对齐后原始数据;S4、人脸对齐完成后,从S2得到的人脸特征点中选取唇部特征点,再根据唇部特征点计算得到对齐后原始数据的每帧或每张图像中各自的唇部特征点的中心的坐标;再根据唇部特征点的中心的坐标将对齐后原始数据的每帧或每张图像中的唇部区域切分为固定尺寸的唇部图像,进而分别得到密集多角度唇部变化数据集和识别网络数据集;S5、使用密集多角度唇部变化数据集训练GAN二阶段转换器和ResNet角度分类器;S6、使用训练后ResNet角度分类器和训练后GAN二阶段转换器来矫正识别网络数据集,将其中发生偏转的唇部图像转正:将识别网络数据集逐帧拆分成若干张待矫正唇部图像,然后输入到训练后ResNet角度分类器中进行角度分类,得到每张待矫正唇部图像各自的唇部偏转角度θ;之后根据唇部偏转角度θ确定使用的GAN二阶段转换器编号i;然后将唇部偏转角度θ的待矫正唇部图像送入对应编号的训练后GAN二阶段转换器中进行唇部矫正,得到矫正后唇部图像;矫正后唇部图像的唇部偏转角度θ为0
°
;再将矫正后唇部图像合并成矫正后唇部图像序列;S7、使用矫正后唇部图像序列训练TCN时间卷积网络;S8、通过训练后TCN时序卷积网络来进行特征识别分类,生成唇语识别结果。2.根据权利要求1所述的基于生成对抗网络和时间卷积网络的唇语识别方法,其特征在于,S1中,制作识别网络原始数据是:通过网络爬虫从网络中获取源视频和字幕文件,使用人脸检测算法获得源视频中的人脸区域,再将人脸切分出来,并与字幕文件对应,得到识别网络原始数据。3.根据权利要求1所述的基于生成对抗网络和时间卷积网络的唇语识别方法,其特征在于,S1中,制作密集多角度唇部变化原始数据是:在受试者面前放置高清摄像头,在每个受试者读出指定文字的过程中,摄像头记录不同观测角度α下的受试者唇部变化情况,并在记录过程中改变受试者所处的光照强度和光照角度以模拟真实环境,得到密集多角度唇部变化原始数据;定义人直视前方时的观测角度为0
°
;观测角度α的范围为

70
°
~70
°
;S1中,在距离受试者唇部正前方1米处、观测角度α为0~70
°
的范围内设置71个高清摄像头,每个摄像头间距为1
°
;录制视频并保存为连续变化的图像,再将视频水平翻转作为观测角度α为

70
°
~0
°
的视频并保存为连续变化的图像,共得到141个观测角度下的所有图像,每个观测角度有若干张图像。4.根据权利要求1所述的基于生成对抗网络和时间卷积网络的唇语识别方法,其特征在于,S3中,根据已有数据计算得到平均人脸特征点矩阵;分别从各自的特征点位置数组中选取所有的原始数据特征点矩阵,再分别计算每个原始数据特征点矩阵与平均人脸特征点
矩阵的偏移量,再针对每个偏移量采用梯度下降法分别求得各自的最小偏移量,再根据各个最小偏移量将原始数据的每帧或每张图像中的人脸分别进行平移并旋转对齐,得到对齐后原始数据;S3中,偏移量采用普氏分析计算得到,偏移量的计算过程如式(1)所示:式(1)中,diff表示原始数据特征点矩阵与平均人脸特征点矩阵的差距,R是一个2
×
2的正交矩阵,s是标量,E是二维向量,p
i
表示原始数据特征点矩阵,q
i
表示平均人脸特征点矩阵。5.根据权利要求1所述的基于生成对抗网络和时间卷积网络的唇语识别方法,其特征在于,S4中,对齐后原始数据的每帧或每张图像中各自的唇部特征点的中心的坐标的计算公式如式(2)所示:式(2)中,x
i
表示第i帧或第i张图像中的唇部特征点的中心的横坐标,y
i
表示第i帧或第i张图像中的唇部特征点的中心的纵坐标;N表示唇部特征点的个数。6.根据权利要求1所述的基于生成对抗网络和时间卷积网络的唇语识别方法,其特征在于,S5具体是:将密集多角度唇部变化数据集分为2α+1类,一类代表一个观测角度,来训练ResNet角度分类器,得到一个训练后ResNet角度分类器;α表示观测角度;将密集多角度唇部变化数据集划分为2*K

1个部分,包括K个第一阶段转换集和K

1个第二阶段转换集,再分别对应输入到G...

【专利技术属性】
技术研发人员:张成伟赵昊天张满囤齐畅崔时雨
申请(专利权)人:河北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1