一种基于Kinect视觉的唇读研究的方法技术

技术编号：24252038 阅读：16 留言：0更新日期：2020-05-22 23:49

一种基于Kinect视觉的唇读研究的方法，该方法将获取的图像及深度数据得到唇区（即感兴趣区域ROI）的3D坐标信息，分别将坐标及空间角度作为特征进行训练识别，探索基于三维信息的唇读研究；该方法相比于基于模型的方法，保存了更多的信息；相比于基于像素的方法，避免了背景对提取数据的影响，降低了信息维度和冗余度。

A research method of lip reading based on Kinect vision

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Kinect视觉的唇读研究的方法
本专利技术属于语音识别领域，具体涉及一种基于Kinect视觉的唇读研究的方法。
技术介绍
近年来，随着计算机技术的迅猛发展，尤其是便携式计算机技术的普及，人机交互（HCI---HumanComputerInterface）已经逐渐成为现代人们的一种重要生活方式。在人类交流的过程中，语音无疑是非常重要的信息媒介，通过语音可以传递一个人的喜怒哀乐。因此，人机交互的方式逐渐以语音的方式为主，因而语音识别技术发展迅猛。语音搜索、语音输入法等语音识别系统已成为当今社会的一大潮流。但是，即使最优秀的语音识别系统也难以适应现实生活中复杂多变的环境，尤其是高噪声的环境，此时系统的识别性能会大幅下降。与此同时，对于听力受损者或语言障碍者而言，语音识别系统的优势也难以体现。有心理学研究表明，人们在噪声环境下，会不自觉地使用唇动、表情、手势等视觉信息来提高语言的理解力。换言之，人类对于语言的感知是多模态的，即在交流过程中不仅依赖交换音频信息的方式，还依靠视觉信息辅助理解。因此唇读研究的发展不仅对于已有的语音识别系统是极大的辅助，同时对于听力受损者或语言障碍者也是一个福音。因而，唇读研究也吸引了业界的注意力，并得到大力发展。唇读研究主要涉及以下几方面：唇区检测及定位、特征提取和训练识别。其中特征提取处于核心地位。目前的特征提取方法主要分为三类：1)基于模型的方法，将嘴唇轮廓抽象为一个数学模型，以获得关于嘴唇的几何形状特征。缺点是特定的模型有可能丢掉一些重要的信息。2)基于像素...

【技术保护点】
1.一种基于Kinect视觉的唇读研究的方法，其特征在于：具体有以下步骤组成：/n步骤一：通过Kinect采集所需脸部三维数据，并对数据进行预处理；/n步骤二：定位唇区，提取唇部18个特征点，进行编号建模；/n步骤三：提取特征，分别是特征点间的角度特征和特征点的坐标特征，并进行归一化处理；/n步骤四：采用隐马尔可夫模型以及K-近邻算法对特征进行训练识别。/n

【技术特征摘要】
1.一种基于Kinect视觉的唇读研究的方法，其特征在于：具体有以下步骤组成：
步骤一：通过Kinect采集所需脸部三维数据，并对数据进行预处理；
步骤二：定位唇区，提取唇部18个特征点，进行编号建模；
步骤三：提取特征，分别是特征点间的角度特征和特征点的坐标特征，并进行归一化处理；
步骤四：采用隐马尔可夫模型以及K-近邻算法对特征进行训练识别。

2.根据权利要求1所述的一种基于Kinect视觉的唇读研究的方法，其特征在于：步骤一对采集的数据进行了预处理，具体步骤如下：
通过采集获得语料库，将获取到的数据加标签及时间戳进行序列化，全部存到一个二进制文件中；将原始数据进行预处理，其一，要把整段音频进行切割，分成每个词一段音频，同时对应的彩色图像及深度数据也要同步的保存到同一位置；其二，我们需要将不合格的数据剔除，并进行重新补录。

3.根据权利要求1所述的一种基于Kinect视觉的唇读研究的方法，其特征在于：步骤二在步骤一的基础上进行唇区定位，具体步骤如下：
在数据采集阶段，利用Kin...

【专利技术属性】
技术研发人员：喻梅，马权智，于健，于瑞国，王建荣，徐天一，赵满坤，高洁，岳帅，
申请(专利权)人：天津大学青岛海洋技术研究院，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人