【技术实现步骤摘要】
一种基于Kinect视觉的唇读研究的方法
本专利技术属于语音识别领域,具体涉及一种基于Kinect视觉的唇读研究的方法。
技术介绍
近年来,随着计算机技术的迅猛发展,尤其是便携式计算机技术的普及,人机交互(HCI---HumanComputerInterface)已经逐渐成为现代人们的一种重要生活方式。在人类交流的过程中,语音无疑是非常重要的信息媒介,通过语音可以传递一个人的喜怒哀乐。因此,人机交互的方式逐渐以语音的方式为主,因而语音识别技术发展迅猛。语音搜索、语音输入法等语音识别系统已成为当今社会的一大潮流。但是,即使最优秀的语音识别系统也难以适应现实生活中复杂多变的环境,尤其是高噪声的环境,此时系统的识别性能会大幅下降。与此同时,对于听力受损者或语言障碍者而言,语音识别系统的优势也难以体现。有心理学研究表明,人们在噪声环境下,会不自觉地使用唇动、表情、手势等视觉信息来提高语言的理解力。换言之,人类对于语言的感知是多模态的,即在交流过程中不仅依赖交换音频信息的方式,还依靠视觉信息辅助理解。因此唇读研究的发展不仅对于 ...
【技术保护点】
1.一种基于Kinect视觉的唇读研究的方法,其特征在于:具体有以下步骤组成:/n步骤一:通过Kinect采集所需脸部三维数据,并对数据进行预处理;/n步骤二:定位唇区,提取唇部18个特征点,进行编号建模;/n步骤三:提取特征,分别是特征点间的角度特征和特征点的坐标特征,并进行归一化处理;/n步骤四:采用隐马尔可夫模型以及K-近邻算法对特征进行训练识别。/n
【技术特征摘要】
1.一种基于Kinect视觉的唇读研究的方法,其特征在于:具体有以下步骤组成:
步骤一:通过Kinect采集所需脸部三维数据,并对数据进行预处理;
步骤二:定位唇区,提取唇部18个特征点,进行编号建模;
步骤三:提取特征,分别是特征点间的角度特征和特征点的坐标特征,并进行归一化处理;
步骤四:采用隐马尔可夫模型以及K-近邻算法对特征进行训练识别。
2.根据权利要求1所述的一种基于Kinect视觉的唇读研究的方法,其特征在于:步骤一对采集的数据进行了预处理,具体步骤如下:
通过采集获得语料库,将获取到的数据加标签及时间戳进行序列化,全部存到一个二进制文件中;将原始数据进行预处理,其一,要把整段音频进行切割,分成每个词一段音频,同时对应的彩色图像及深度数据也要同步的保存到同一位置;其二,我们需要将不合格的数据剔除,并进行重新补录。
3.根据权利要求1所述的一种基于Kinect视觉的唇读研究的方法,其特征在于:步骤二在步骤一的基础上进行唇区定位,具体步骤如下:
在数据采集阶段,利用Kin...
【专利技术属性】
技术研发人员:喻梅,马权智,于健,于瑞国,王建荣,徐天一,赵满坤,高洁,岳帅,
申请(专利权)人:天津大学青岛海洋技术研究院,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。