当前位置: 首页 > 专利查询>清华大学专利>正文

基于参数化曲线的唇语识别模型训练方法及装置制造方法及图纸

技术编号:20449168 阅读:30 留言:0更新日期:2019-02-27 03:09
本发明专利技术公开了一种基于参数化曲线的唇语识别模型训练方法及装置,其中,方法包括:截取嘴部区域,根据检测的嘴部区域的特征点得到嘴部矩形区域;将缩放的嘴部矩形区域输入边缘检测网络得到第一至第四唇线图片,以获取第一至第四唇线的边缘像素点;将每条唇线的边缘点分成多条子曲线;根据参数化曲线拟合每条唇线的边缘像素点,以得到拟合后的嘴唇唇线;对视频的每一帧均采用上述步骤进行处理,以得到每一帧拟合后的嘴唇唇线,根据每一帧拟合后的嘴唇唇线训练唇语识别模型。该方法可以用低维特征描述嘴唇的形状,减少后续计算的计算量,且更鲁棒,不受图像噪声或者图像尺寸、色温等图像自身属性影响。

【技术实现步骤摘要】
基于参数化曲线的唇语识别模型训练方法及装置
本专利技术涉及唇语识别
,特别涉及一种基于参数化曲线的唇语识别模型训练方法及装置。
技术介绍
唇语识别在安防,语音识别,残疾人辅助等领域都有广阔的应用空间。由于不同的发音可能对应相同的唇形,唇语识别往往需要较强的上下文信息,才能获得比较准确的结果。传统的方法需要进行复杂的预处理,从视频中提取嘴唇的位置和形状特征,并使用光流或动作检测等方法,提取嘴唇的动作特征,即上下文。基于神经网络的方法使用CNN(ConvolutionalNeuralNetwork,卷积神经网络)提取嘴唇特征,使用RNN(RecurrentNeuralNetwork,循环神经网络)来描述上下文信息,极大的提升了效果。直接使用图片作为输入,使用CNN提取特征并用于后续计算存在计算量大,容易受到噪声干扰的问题。
技术实现思路
本申请是基于专利技术人对以下问题的认识和发现做出的:唇语识别,简单说就是通过图像识别人的口型,转写出所说的内容。传统唇语识别需要从视频中提取嘴唇的位置和动作特征,提取特征的好坏决定了之后的唇语识别的效果。近些年来深度学习的方法也被用于唇语识别中,大大提升了准确度。这些方法大多是直接将图片序列输入网络,使用卷积神经网络提取特征,再使用循环神经网络,训练序列-序列的预测模型。本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于参数化曲线的唇语识别模型训练方法,该方法可以用低维特征描述嘴唇的形状,减少后续计算的计算量,且更鲁棒,不受图像噪声或者图像尺寸、色温等图像自身属性影响。本专利技术的另一个目的在于提出一种基于参数化曲线的唇语识别模型训练装置。为达到上述目的,本专利技术一方面实施例提出了一种基于参数化曲线的唇语识别模型训练方法,包括以下步骤:步骤S1:截取嘴部区域,并检测所述嘴部区域的特征点,以根据所述特征点得到嘴部矩形区域;步骤S2:缩放所述嘴部矩形区域,并将缩放的所述嘴部矩形区域输入边缘检测网络得到第一至第四唇线图片,根据所述第一至第四唇线图片获取第一至第四唇线的边缘像素点;步骤S3:根据参数化曲线拟合每条唇线的边缘像素点,以得到拟合后的嘴唇唇线;步骤S4:对视频的每一帧均采用步骤S1-S3进行处理,以得到每一帧拟合后的嘴唇唇线,根据所述每一帧拟合后的嘴唇唇线训练唇语识别模型。本专利技术实施例的基于参数化曲线的唇语识别模型训练方法,通过输入图片后通过边缘检测和预处理,获得嘴唇唇线的参数化曲线描述,以曲线参数为输入,训练唇语识别的RNN,实现从RGB(Red、Green、Blue,红、绿、蓝三色)图像中检测到嘴唇曲线,使用参数化曲线描述该曲线,并将参数化曲线用于后续的RNN预测中,从而可以用低维特征描述嘴唇的形状,减少后续计算的计算量,且更鲁棒,不受图像噪声或者图像尺寸、色温等图像自身属性影响。另外,根据本专利技术上述实施例的基于参数化曲线的唇语识别模型训练方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述第一至第四唇线与嘴唇从上到下的四条唇线一一对应。进一步地,在本专利技术的一个实施例中,所述根据所述第一至第四唇线图片获取第一至第四唇线的边缘像素点,进一步包括:选取第一至第四唇线图片中满足预设条件的预设个像素作为第一至第四唇线的边缘像素点。进一步地,在本专利技术的一个实施例中,根据参数化曲线拟合每条唇线的边缘像素点,以得到拟合后的嘴唇唇线,进一步包括:在三维人脸模型上标注每条唇线的起点和终点、以及每条参数化曲线的端点;将所述三维人脸模型旋转后投影至平面,以投影的所述三维人脸模型从左到右为x轴的正方向,从上到下为y轴的正方向建立坐标系;将所述述每条参数化的端点投影至所述平面,并将每条唇线的边缘像素点对应分到每条参数化曲线,以拟合每条唇线的边缘像素点。为达到上述目的,本专利技术另一方面实施例提出了一种基于参数化曲线的唇语识别模型训练装置,包括:截取模块,用于截取嘴部区域,并检测所述嘴部区域的特征点,以根据所述特征点得到嘴部矩形区域;缩放和获取模块,用于缩放所述嘴部矩形区域,并将缩放的所述嘴部矩形区域输入边缘检测网络得到第一至第四唇线图片,根据所述第一至第四唇线图片获取第一至第四唇线的边缘像素点;拟合模块,用于根据参数化曲线拟合每条唇线的边缘像素点,以得到拟合后的嘴唇唇线;训练模块,用于根据所述截取模块、所述缩放和获取模块和所述拟合模块对视频的每一帧进行处理,以得到每一帧拟合后的嘴唇唇线,根据所述每一帧拟合后的嘴唇唇线训练唇语识别模型。本专利技术实施例的基于参数化曲线的唇语识别模型训练装置,通过输入图片后通过边缘检测和预处理,获得嘴唇唇线的参数化曲线描述,以曲线参数为输入,训练唇语识别的RNN,实现从RGB图像中检测到嘴唇曲线,使用参数化曲线描述该曲线,并将参数化曲线用于后续的RNN预测中,从而可以用低维特征描述嘴唇的形状,减少后续计算的计算量,且更鲁棒,不受图像噪声或者图像尺寸、色温等图像自身属性影响。另外,根据本专利技术上述实施例的基于参数化曲线的唇语识别模型训练装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述第一至第四唇线与嘴唇从上到下的四条唇线一一对应。进一步地,在本专利技术的一个实施例中,所述缩放和获取模块进一步用于选取第一至第四唇线图片中满足预设条件的预设个像素作为第一至第四唇线的边缘像素点。进一步地,在本专利技术的一个实施例中,所述拟合模块进一步用于在三维人脸模型上标注每条唇线的起点和终点、以及每条参数化曲线的端点;将所述三维人脸模型旋转后投影至平面,以投影的所述三维人脸模型从左到右为x轴的正方向,从上到下为y轴的正方向建立坐标系;将所述述每条参数化的端点投影至所述平面,并将每条唇线的边缘像素点对应分到每条参数化曲线,以拟合每条唇线的边缘像素点。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的基于参数化曲线的唇语识别模型训练方法的流程图;图2为根据本专利技术一个具体实施例的基于参数化曲线的唇语识别模型训练方法的流程图;图3为根据本专利技术一个实施例的基于参数化曲线的唇语识别模型训练装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参照附图描述根据本专利技术实施例提出的基于参数化曲线的唇语识别模型训练方法及装置,首先将参照附图描述根据本专利技术实施例提出的基于参数化曲线的唇语识别模型训练方法。图1是本专利技术一个实施例的基于参数化曲线的唇语识别模型训练方法的流程图。如图1所示,该基于参数化曲线的唇语识别模型训练方法包括以下步骤:步骤S1:截取嘴部区域,并检测嘴部区域的特征点,以根据特征点得到嘴部矩形区域。可以理解的是,如图2所示,截取嘴部区域,用工具检测嘴部特征点,根据特征点计算嘴部区域的矩形。需要说明的是,本专利技术实施例使用分辨率为640*480的带本文档来自技高网...

【技术保护点】
1.一种基于参数化曲线的唇语识别模型训练方法,其特征在于,包括以下步骤:步骤S1:截取嘴部区域,并检测所述嘴部区域的特征点,以根据所述特征点得到嘴部矩形区域;步骤S2:缩放所述嘴部矩形区域,并将缩放的所述嘴部矩形区域输入边缘检测网络得到第一至第四唇线图片,根据所述第一至第四唇线图片获取第一至第四唇线的边缘像素点;步骤S3:根据参数化曲线拟合每条唇线的边缘像素点,以得到拟合后的嘴唇唇线;步骤S4:对视频的每一帧均采用步骤S1‑S3进行处理,以得到每一帧拟合后的嘴唇唇线,根据所述每一帧拟合后的嘴唇唇线训练唇语识别模型。

【技术特征摘要】
1.一种基于参数化曲线的唇语识别模型训练方法,其特征在于,包括以下步骤:步骤S1:截取嘴部区域,并检测所述嘴部区域的特征点,以根据所述特征点得到嘴部矩形区域;步骤S2:缩放所述嘴部矩形区域,并将缩放的所述嘴部矩形区域输入边缘检测网络得到第一至第四唇线图片,根据所述第一至第四唇线图片获取第一至第四唇线的边缘像素点;步骤S3:根据参数化曲线拟合每条唇线的边缘像素点,以得到拟合后的嘴唇唇线;步骤S4:对视频的每一帧均采用步骤S1-S3进行处理,以得到每一帧拟合后的嘴唇唇线,根据所述每一帧拟合后的嘴唇唇线训练唇语识别模型。2.根据权利要求1所述的基于参数化曲线的唇语识别模型训练方法,其特征在于,所述第一至第四唇线与嘴唇从上到下的四条唇线一一对应。3.根据权利要求1所述的基于参数化曲线的唇语识别模型训练方法,其特征在于,所述根据所述第一至第四唇线图片获取第一至第四唇线的边缘像素点,进一步包括:选取第一至第四唇线图片中满足预设条件的预设个像素作为第一至第四唇线的边缘像素点。4.根据权利要求1所述的基于参数化曲线的唇语识别模型训练方法,其特征在于,所述根据参数化曲线拟合每条唇线的边缘像素点,以得到拟合后的嘴唇唇线,进一步包括:在三维人脸模型上标注每条唇线的起点和终点、以及每条参数化曲线的端点;将所述三维人脸模型旋转后投影至平面,以投影的所述三维人脸模型从左到右为x轴的正方向,从上到下为y轴的正方向建立坐标系;将所述述每条参数化的端点投影至所述平面,并将每条唇线的边缘像素点对应分到每条参数化曲线...

【专利技术属性】
技术研发人员:徐枫王雅婷
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1