当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于唇读技术的唇语输入方法技术

技术编号:8682209 阅读:504 留言:0更新日期:2013-05-09 02:21
本发明专利技术涉及一种基于唇读技术的唇语输入方式,主要针对常用汉字及阿拉伯数字。属于计算机智能识别技术,是一个典型的图像模式分析、理解和分类计算的问题,涉及模式识别,计算机视觉,智能人机交互,认知科学等多个学科。对所拍摄的嘴部唇动视频进行关键帧提取,利用灰度处理、中值滤波、动态阈值二值化处理及扫描去除噪点对提取的图像进行规格化处理,之后进行特征向量提取获取具有唇形特征的参数,与口型模板库进行匹配将图片识别为汉语拼音字母序列,最终结合输入法模块获得对应的汉字或阿拉伯数字。

【技术实现步骤摘要】

本专利技术涉及一种基于唇读技术的唇语输入方式,主要针对常用汉字及阿拉伯数字。属于计算机智能识别技术,是一个典型的图像模式分析、理解和分类计算的问题,涉及模式识别,计算机视觉,智能人机交互,认知科学等多个学科。根据所拍摄的嘴部唇动视频,经过关键帧提取、图像处理及特征向量提取获取具有唇形特征的参数,据此识别为汉语拼音字母序列,最终结合输入法模块获得对应的汉字或阿拉伯数字。
技术介绍
随着科技的发展,人们更加需要人性化的人机交互方式。现在,各种电子设备遍布我们生活的各个方面,大多都单一的依靠传统的键盘、鼠标等人手操作模式,很多情况下不够便利,不能够适应不同的环境需求,不能减少外界环境对人们的干扰。尽管如今已经从单一的手动按键,开始推广触屏方式,但还是需要各种实际存在的或者虚拟的键盘来输入相应的内容,在某种程度上,输入的速度以及便捷程度都受到很大限制。因此,人们开始思考和探索更为便捷的输入方式来减少对人手的束缚。现有的输入方式,根据输入设备的不同,可分为键盘输入、手写输入、语音输入等。其中,键盘输入是最基础的计算机输入方式。现有的中文输入法,包括拼音输入法、五笔输入法、郑码输入法、音形码输本文档来自技高网...

【技术保护点】
一种基于唇读技术的唇语输入方法(主要针对常用汉字及阿拉伯数字),它包括视频采集单元、视频解码单元、图像预处理单元,特征提取单元,口型模板库,唇语识别单元以及文字输出单元:(A)视频采集单元通过摄像头获取只包含用户唇部口型变化的唇动视频序列并输入视频解码单元;(B)视频解码单元将输入的唇动视频利用关键帧采集技术获取视频流中具有代表性的关键帧,并将提取的关键帧序列(归一化的唇部色彩静态图片)送入图像预处理单元;(C)图像预处理单元对上一单元获得的关键帧图像,利用OpenCV库函数进行灰度化和中值滤波处理,而后利用大津法获得的动态阈值对图片进行二值化处理,最后对图片进行扫描去噪获得规格化的唇部二值化...

【技术特征摘要】
1.一种基于唇读技术的唇语输入方法(主要针对常用汉字及阿拉伯数字),它包括视频采集单元、视频解码单元、图像预处理单元,特征提取单元,口型模板库,唇语识别单元以及文字输出单元: (A)视频采集单元通过摄像头获取只包含用户唇部口型变化的唇动视频序列并输入视频解码单元; (B)视频解码单元将输入的唇动视频利用关键帧采集技术获取视频流中具有代表性的关键帧,并将提取的关键帧序列(归一化的唇部色彩静态图片)送入图像预处理单元; (C)图像预处理单元对上一单元获得的关键帧图像,利用OpenCV库函数进行灰度化和中值滤波处理,而后利用大津法获得的动态阈值对图片进行二值化处理,最后对图片进行扫描去噪获得规格化的唇部二值化图片。(D)特征提取单元针对经过图像处理后的规格化二值化图片,利用模板法进行唇部特征提取,获得表示唇部特征的特征向量; (E)口型模板库是预先建立的用于存储标准口型特征向量的模块,储存了先期试验中采集的标准口型模板,包括所有汉语拼音字母发音时的唇动图像(单张或多张)样本及针对唇动图像利用模板法提取的特征向量; (F)唇语识别单元对处理后的规格化二值化图像进行识别,从特征提取单元中获得序列中每张图片的特征向量,从模板库索引得到匹配的汉语拼音字母序列输入文字输出单元。(G)文字输出单元对汉语拼音字母序列进行智能识别,在用户协助选取所需内容之后,输出最终结果。2.根据权利要求1所述的一种基于唇读技术的唇语输入方法,其特征在于:本发明可用于PC平台以及...

【专利技术属性】
技术研发人员:张金肖庆阳梁碧玮左闯范娟婷邸硕临
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1