【技术实现步骤摘要】
一种结合图神经网络和多特征融合的唇语识别方法
本专利技术属于人工智能和深度学习领域,具体是一种结合图神经网络和多特征融合的唇语识别方法。
技术介绍
随着科学技术的发展和硬件制造水平的提升,基于深度学习的人工智能技术越来越受到研究者的关注。深度学习领域包含众多子领域,如机器视觉、自然语言处理等。结合机器视觉和自然语言处理两种技术的唇语识别获得了越来越多的关注。唇语识别具有非常观念广阔的应用场景,例如基于唇部特征的活体检测、辅助听障人士交流、交通摄像头语音恢复等。唇语识别面临的困难有很多,例如某些语句可能会对应速度非常快的唇部变化或者很微小的唇部变化,这都会增加识别任务的难度。目前的唇语识别解决方法有很多种,按信息来源可以大致分为单视觉特征唇语识别和视听结合的双流识别。唇部视觉特征是唇部原始图像序列,还有基于此衍生出的其他变种,例如描绘相邻图像像素变化的光流图序列、根据唇部图像标注的时序特征点序列等。唇语识别还经常会和音频识别结合,可以用于增强语音和去除噪声。语音识别也可以将其包含的大量信息通过知识蒸馏的方法传递 ...
【技术保护点】
1.一种结合图神经网络和多特征融合的唇语识别方法,其特征在于,该方法包括以下步骤:/nS1、制作识别网络数据集;/nS2、使用人脸标注算法标注人脸特征点;/nS3、从S2得到的人脸特征点中选取唇部区域特征点,再根据唇部区域特征点计算得到识别网络数据集的每帧中各自的唇部区域特征点的中心的坐标;再将左侧唇部关键特征点和右侧唇部关键特征点中对应的特征点对分别转换为向量,并将其相加计算得到识别网络数据集的每帧的唇部偏转向量V;再根据唇部偏转向量V计算每帧的唇部偏转角度θ;然后将每帧以各自的唇部区域特征点的中心的坐标为原点,旋转θ°将每帧图像转正,得到修正后识别网络数据集,进而完成人 ...
【技术特征摘要】
1.一种结合图神经网络和多特征融合的唇语识别方法,其特征在于,该方法包括以下步骤:
S1、制作识别网络数据集;
S2、使用人脸标注算法标注人脸特征点;
S3、从S2得到的人脸特征点中选取唇部区域特征点,再根据唇部区域特征点计算得到识别网络数据集的每帧中各自的唇部区域特征点的中心的坐标;再将左侧唇部关键特征点和右侧唇部关键特征点中对应的特征点对分别转换为向量,并将其相加计算得到识别网络数据集的每帧的唇部偏转向量V;再根据唇部偏转向量V计算每帧的唇部偏转角度θ;然后将每帧以各自的唇部区域特征点的中心的坐标为原点,旋转θ°将每帧图像转正,得到修正后识别网络数据集,进而完成人脸对齐;
所述唇部区域特征点是从人脸特征点中选取位于唇部区域的唇部特征点以及分别位于鼻尖、下巴、左鄂和右鄂位置的鼻尖特征点、下巴特征点、左鄂特征点和右鄂特征点;
所述左侧唇部关键特征点是从唇部特征点中选取位于最左侧的四个和左鄂特征点;右侧唇部关键特征点是从唇部特征点中选取位于最右侧的四个和右鄂特征点;特征点对是左侧唇部关键特征点和右侧唇部关键特征点中关于人脸中轴线对称的两个特征点形成的组合;
S4、根据S3得到的唇部区域特征点的中心的坐标将S3得到的修正后识别网络数据集切分为固定尺寸的唇部图像,再合并成唇部图像序列,得到切分后识别网络数据集;
S5、将S4得到的切分后识别网络数据集输入训练后唇部语义分割网络,得到分割后识别网络数据集;
S6、训练唇语识别网络:使用S3得到的唇部区域特征点、S4得到的切分后识别网络数据集和S5得到的分割后识别网络数据集来训练唇语识别网络,得到训练后唇语识别网络;
S7、通过训练后唇语识别网络来进行特征识别分类,生成唇语识别结果。
2.根据权利要求1所述的结合图神经网络和多特征融合的唇语识别方法,其特征在于,S1具体是:从公开的唇语识别数据集ouluvs2中选择样本,使用FaceGen软件进行3D人脸重建,并导出人脸变化序列并保存为RGB视频,作为识别网络数据集。
3.根据权利要求2所述的结合图神经网络和多特征融合的唇语识别方法,其特征在于,S1中,使用FaceGen软件进行3D人脸重建具体是:使用ouluvs2中的0°人脸图像、90°人脸图像以及经过水平翻转的90°人脸图像通过3D人脸重建软件FaceGen生成3D人脸模型。
4.根据权利要求1所述的结合图神经网络和多特征融合的唇语识别方法,其特征在于,S2中,使用dlib开源工具进行人脸特征点标注,共得到68个人脸特征点;
S3中,所述唇部区域特征点是从dlib开源工具定义的68个人脸特征点中选取位于唇部区域的20个唇部特征点以及分别位于鼻尖、下巴、左鄂和右鄂位置的鼻尖特征点、下巴特征点、左鄂特征点和右鄂特征点,共24个特征点;
S3中,所述左侧唇部关键特征点是从20个唇部特征点中选取位于最左侧的四个和左鄂特征点,共5个特征点;右侧唇部关键特征点是从20个唇部特征点中选取位于最右侧的四个和右鄂特征点,共5个特征点。
5.根据权利要求1所述的结合图神经网络和多特征融合的唇语识别方法,其特征在于,S3中,每帧的唇部区域特征点的中心的坐标的计算公式如式(1)所示:
式(1)中,xi表示第i帧中的唇部区域特征点的中心的横坐标,yi表示第i帧中的唇部区域特征点的中心的纵坐标;N表示唇部区域特征点的个数;
S3中,唇部偏转向量V的计算公式如式(2)所示:
式(2)中,l表示左侧唇部关键特征点;r表示右侧唇部关键特征点,land表示第i帧的全部人脸特征点,k表示第k对特征点;
S3中,根据每帧的唇...
【专利技术属性】
技术研发人员:张成伟,赵昊天,张满囤,刘川,申冲,
申请(专利权)人:河北工业大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。