一种基于卷积自编码模型的唇部特征提取方法技术

技术编号：21953544 阅读：11 留言：0更新日期：2019-08-24 18:08

本发明专利技术公开一种基于卷积自编码模型的唇部特征提取方法，该发明专利技术首先通过对用户输入的视频逐帧提取唇部区域；然后对每帧唇部区域图像进行处理；处理完成后利用卷积自编码模型来提取唇部区域图像特征，最后将特征输入到LSTM进行训练，LSTM根据输入的特征对单词进行分类，从而完成对唇部的读取。本发明专利技术通过对唇部图像的压缩与重构，有助于帮助我们从唇部图像中提取视觉特征，从而得到更准确的潜在表示空间，能够有效提升唇读的准确性与可靠性。

A lip feature extraction method based on convolutional self-coding model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积自编码模型的唇部特征提取方法
本专利技术涉及一种基于卷积自编码模型的唇部特征提取方法，属于计算机视觉、图像处理、人机交互等交叉
随着人工智能的发展，人机交互技术越来越多，唇语识别将机器视觉和自然语言处理结合起来，不需要听声音，仅仅依靠识别说话者的唇语动作便可解读说话者的内容。唇语识别在智慧城市、人机交互、辅助语音识别及生命健康等诸多领域都具有广泛的应用，对于噪声环境或听力障碍者更加具有重要意义。
技术介绍
计算机唇读识别是一种通过分析说话者的唇部视觉信息，包括对嘴唇、面部和舌头的运动解释来理解语言的技术，在嘈杂环境中，只利用语音识别是很复杂的，通过视觉信息来辅助语音识别提供了一种高效的理解语言的方式。由于每个人不同的口音、说话速度、面部特征以及肤色等原因，唇读变成是一个具有挑战性的问题。近些年来，唇读已经被运用到了许多应用中，唇读的应用不仅是对听障人士非常有帮助，也有助于在嘈杂环境中理解口语等，这些原因使得研究唇读这一问题具有重要的现实意义。目前，唇读的任务主要包括两个处理块，第一个块负责从输入视频帧中提取相关特征，而另一个块负责模拟这些视频帧的特征之间的关系。前者能够从输入的视频中缩小至唇部区域并提取唇部特征，后者则是对提取的唇部区域特征进行数据分析识别，从而能够识别出说话者的内容。除此之外还包括对图像的处理等。
技术实现思路
技术问题：专利技术所要解决的技术问题是视频中对唇部区域的压缩与重构，有助于帮助我们从唇部图像中提取视觉特征，从而得到更准确的潜在表示空间，能够有效提升唇读的准确性与可靠性。技术方案：为了实现上述目的，本专利技术采用...

【技术保护点】
1.一种基于卷积自编码模型的唇部特征提取方法，其特征在于，包括以下步骤：步骤1)输入一个视频，所述视频为带有唇部区域的单人说话视频，逐帧提取视频中的唇部区域图像；步骤2)当每帧唇部区域图像被提取出来后，对每帧图像进行灰度化处理，给每个视频附加黑帧，使得视频中的帧数恒定；步骤3)通过使用卷积自编码模型来对步骤2)中处理过后的唇部区域图像进行特征提取，所述卷积自编码模型包括通过利用输入层与输出层之间的映射关系实现样本重构，其中输入层和输出层具有相同规模；步骤31)令输入层x＝{x1,x2,...,xm},输出层

【技术特征摘要】
1.一种基于卷积自编码模型的唇部特征提取方法，其特征在于，包括以下步骤：步骤1)输入一个视频，所述视频为带有唇部区域的单人说话视频，逐帧提取视频中的唇部区域图像；步骤2)当每帧唇部区域图像被提取出来后，对每帧图像进行灰度化处理，给每个视频附加黑帧，使得视频中的帧数恒定；步骤3)通过使用卷积自编码模型来对步骤2)中处理过后的唇部区域图像进行特征提取，所述卷积自编码模型包括通过利用输入层与输出层之间的映射关系实现样本重构，其中输入层和输出层具有相同规模；步骤31)令输入层x＝{x1,x2,...,xm},输出层所述x代表输入数据，代表输出数据，1,2,…m代表输入层和输出层的节点个数；步骤32)初始化H个卷积核，每个卷积核搭配一个偏置b，与输入数据x进行卷积后生成k个特征图h，公式如下：hk＝f(x*wk+bk)，其中：*表示二维卷积运算，w表示连接权重，f(.)表示激活函数；步骤33)对特征图h进行池化操作，保留池化时的位置关系的矩阵，方便之后反池化的操作；步骤34)对特征图h进行反池化操作，用到保留池化时的位置关系的矩阵，将数据还原到原始大小的矩阵的相应位置；步骤35)每张特征图h与其对应的权矩阵的转置进行卷积操作并将结果求和，然后加上偏置c，输出数据为：其中：表示第k个特征图的权矩阵wk的转置；步骤36)确定损失函数来更新权值，此处采用最小均方差函数，公式如下：所述最小均方差函数是用输出数据减去输入数据的平方和再求均值，表示第i个输出数据，xi,i∈[1,n]表示第i个输入数据，i表示n中的一个数值，n表示取m中节点个数n个，2n是为了简化求导；步骤37)当确定损失函数后，对w和b求导，通过梯度下降法调整权重参数最小化重构误差，目标函数梯度值公式如下：δhk指卷积层的k个特征图h的残差，指解码层的残差，指k个特征图h的转置，*指二维卷积运算...

【专利技术属性】
技术研发人员：陈志，周松颖，岳文静，周传，陈璐，刘玲，江婧，任杰，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人