基于视觉特征的单音节语言唇读识别系统技术方案

技术编号:3044963 阅读:285 留言:0更新日期:2012-04-11 18:40
一种基于视觉特征的单音节语言唇读识别系统,包括视频解码模块、唇部定位模块、唇动分割模块、特征提取模块、语料库、模型建立模块和唇语识别模块;    (A)视频解码模块将输入的面部视频信号转换成帧图像序列,送入唇部定位单元;    (B)唇部定位模块从帧图像序列中发现并定位人脸,并进一步检测、确定唇部区域,从原图像中分离出唇部图像,提交一个只包含唇部动作变化的唇动视频序列给唇动分割模块;    (C)唇动分割模块将唇动视频序列以单音节为单位分割成若干单音节唇动图像序列,一个单音节唇动图像序列由若干连续的帧组成,提交给特征提取模块;    (D)特征提取模块针对单音节唇动图像序列中每帧图像,提取并描述唇部发音时低级视觉特征和高级视觉特征,低级视觉特征包含直接基于该帧图像像素或经变换后的特征;高级视觉特征包含唇部轮廓参数,唇部轮廓参数根据该帧图像的唇部区域及该帧图像的低级视觉特征计算,将低级视觉特征和高级视觉特征融合,形成该帧图像的唇动特征向量;单音节唇动图像序列中每帧图像处理后,将各帧图像的唇动特征向量组成的单音节唇动特征向量提交给唇读识别模块或者语料库;    (E)语料库存储汉语中各个单音节发音时的单音节唇动图像序列样本、单音节唇动图像序列样本的特征向量、单音节唇动图像序列样本与单音节标识符之间的对应关系,以及单音节标识符与拼音文字之间的对应关系;    (F)模型建立模块从语料库中获取单音节唇动图像序列样本的特征向量作为训练对象,通过学习算法建立识别模型,将模型参数以文件方式保存于本模块,并在需要时传递给唇语识别模块;    (G)唇语识别模块对单音节唇动图像序列进行识别,从特征提取模块获取单音节唇动特征向量,结合从模型建立模块获取的模型参数,对单音节唇动特征向量进行分类,再从语料库中索引得到单音节的拼音文字,最后将单音节的拼音文字进行组合输出给最终用户。

【技术实现步骤摘要】

本专利技术属于计算机智能识别技术,具体涉及一种面向单音节语言的、 基于视觉特征的唇读识别系统,根据视频中人物说话时的唇动变化,识 别说话内容。
技术介绍
计算机从1946年诞生发展至今,经历了键盘操作方式、鼠标操作方 式,进入了自然人机交互方式阶段。在这种背景下,近年来语音识别技 术得到了快速的发展,通过语音进行人机交互,无疑是交互方式中最有 效、快捷的途径。噪音环境下的语音识别综述(Y. Cong. Speech recognition in noisy environments:a survey [J]. Speech Communication, 1995: 16:261-291) —文分析了由IBM提出的ViaVoice语音识别系统,指出这 些在实验室里表现优秀的系统,在实际噪声环境或多话者条件下,其识 别率都大大下降。唇动是语音的视觉补充,它可以帮助语音提高识别率。唇读就是在 这样的背景下提出来的。唇读的现象是普遍存在的,主要是听力残障者 从正常人说话中获取信息的一种技巧。他们凭借自身已有的语言知识、 谈话内容和背景知识等众多相关因素,再根据观察到说话人的口型变化 情况,映像成说话内容。事实上正常人也在使用这种手段,只是数量上 和意识上有所差别。由计算机来实现和完成这项技巧,对人机交流技术 有着深远的影响。解决唇读问题需要经过唇的检测定位、特征提取、识别理解的过程。 许多唇读识别系统直接采集的是唇部灰度图像,采用手动的办法框出唇的区域或将摄像头固定在头盔上与人脸形成相对固定的位置,不允许人脸自由移动,见增强语音识别的自动唇读(E.D.Petajan,Automatic Lipreading to Enhance Speech Recognition ,PhD thesis, Univ. of 111ionis,Urbana-Champaign,1984);或将唇涂上深色的口红或者贴反光片, 且在特定的光照条件下摄取,见使用概率模型的唇读(Luettin J, Thacker N A. Speechreading Using Probabilistic Models. Computer Vision and Image Understanding. 1997, 165(2):163-178)。而唇读的目标是在无任何交互和限 制条件下,能够自动地将不同光照、不同皮肤颜色、不同话者准确定位、 跟踪、识别和理解。目前已有的唇读研究多是利用音视频信息相结合而进行的,比如 IBM公司提供的视听觉测试库ViaVoiceTM,见大词汇量的人机音视频 语音识另廿(Gerasimos Potamianos, Chalapathy Neti, Giridharan Iyengar, Eric Helmuth, Large-Vocabulary Audio-Visual Speech Recognition by Machines and Humans IBM Thomas J.Watson Research Center Aalborg, Denmark September 2001:3-7); Intel研究机构于2003年初构建的视听觉 实时识别系统AVCSR,见不依赖于说话人的音视频连续语音识别 (Luhong Liang, Xiaoxing Liu, Yibao Zhao, Xiaobo Pi, and Ara V.Nefian SPEAKER INDEPENDENT AUDIO-VISUAL CONTINUOUS SPEECH RECOGNITION EURASIP Journal on Applied Signal Processing, Special issue on Audio-Visual Speech Processing, 2002 ),但是在嘈杂的环境、禁止 发声的环境或者远距离的情况下,声音信息难以准确获取。识别系统采集自然语速的句子,不能直接用于识别,需要从句子中 将单音节发音切割开来,即唇动分割。有的唇动系统使用的分割技术基 于严格的等时间间隔,如徐彦君,杜利民.汉语听觉视觉双模态数据库 CAVSRl.O声学学报,2000; 25 (1): 42—49,这对于自然状况下的人 的讲话内容的识别是不适用的;有的依赖视频数据使用语音能量进行分 割,如单卫,姚鸿勋,高文.唇读中序列口型的分类,中文信息学报.2002,16 (1): 31—36,这种方法无法用于无声的环境。现有的唇读识别系统中,语料库的规模小而简单,如Movdlan建立 的语料库Tulips集合为(one, two, three, four},见使用随机网络的视觉 i吾音i只另lj (J. R. Movellan.. Visual speech recognition with stochastic networks. In G. Tesauro, D. Touretzky, and T. Leen, editors, Advances in Neural Information Processing Systems, volume 7. MIT press, Cambridge, W95); Pigoen和Vandendo卬e建立的语料库M2VTS集合为法语数字0 到9 ,见多模态人脸数据库M2VTS(S.PigeonandL. Vandendorpe.The M2VTS multimodal face database. In Proceedings of the First International Conference on Audio-and Video-Based Biometric Person Authentication, Lecture Notes in Computer Science. Springer Verlag, 1997) ; Mattehews禾口 Cox所建立的语料库Avletters的集合为{A.. .Z},见I. A. Matthews, J. A. Bangham and S. J. Cox, Scale Based Features for Audiovisual Speech Recognition这些库适合研究阶段的实验,离真实的应用背景和唇读实 用目标太遥远。中科院声学所的徐彦君建立了汉语听觉视觉双模态数据 库CAVSR,哈尔滨工业大学建立了音视频语料库HIT B.i-CAVDatabase, 这些库是包括了音频和视频两部分信息的,不适用于仅使用视频信息的 环境。
技术实现思路
本专利技术提供一种基于视觉特征的单音节语言唇读识别系统,目的在 于仅利用视频信息,解决如汉语等单音节语言的唇读识别问题。本专利技术的一种基于视觉特征的单音节语言唇读识别系统,包括视频 解码模块、唇部定位模块、唇动分割模块、特征提取模块、语料库、模型建立模块和唇语识别模块;(A) 视频解码模块将输入的面部视频信号a转换成帧图像序列,送入 唇部定位单元;(B) 唇部定位模块从帧图像序列中发现并定位人脸,并进一步检测、 确定唇部区域,从原图像中分离出唇部图像,提交一个只包含唇部动作 变化的唇动视频序列本文档来自技高网
...

【技术保护点】
一种基于视觉特征的单音节语言唇读识别系统,包括视频解码模块、唇部定位模块、唇动分割模块、特征提取模块、语料库、模型建立模块和唇语识别模块;(A)视频解码模块将输入的面部视频信号转换成帧图像序列,送入唇部定位单元;(B)唇部定位模块从帧图像序列中发现并定位人脸,并进一步检测、确定唇部区域,从原图像中分离出唇部图像,提交一个只包含唇部动作变化的唇动视频序列给唇动分割模块;(C)唇动分割模块将唇动视频序列以单音节为单位分割成若干单音节唇动图像序列,一个单音节唇动图像序列由若干连续的帧组成,提交给特征提取模块;(D)特征提取模块针对单音节唇动图像序列中每帧图像,提取并描述唇部发音时低级视觉特征和高级视觉特征,低级视觉特征包含直接基于该帧图像像素或经变换后的特征;高级视觉特征包含唇部轮廓参数,唇部轮廓参数根据该帧图像的唇部区域及该帧图像的低级视觉特征计算,将低级视觉特征和高级视觉特征融合,形成该帧图像的唇动特征向量;单音节唇动图像序列中每帧图像处理后,将各帧图像的唇动特征向量组成的单音节唇动特征向量提交给唇读识别模块或者语料库;(E)语料库存储汉语中各个单音节发音时的单音节唇动图像序列样本、单音节唇动图像序列样本的特征向量、单音节唇动图像序列样本与单音节标识符之间的对应关系,以及单音节标识符与拼音文字之间的对应关系;(F)模型建立模块从语料库中获取单音节唇动图像序列样本的特征向量作为训练对象,通过学习算法建立识别模型,将模型参数以文件方式保存于本模块,并在需要时传递给唇语识别模块;(G)唇语识别模块对单音节唇动图像序列进行识别,从特征提取模块获取单音节唇动特征向量,结合从模型建立模块获取的模型参数,对单音节唇动特征向量进行分类,再从语料库中索引得到单音节的拼音文字,最后将单音节的拼音文字进行组合输出给最终用户。...

【技术特征摘要】
1.一种基于视觉特征的单音节语言唇读识别系统,包括视频解码模块、唇部定位模块、唇动分割模块、特征提取模块、语料库、模型建立模块和唇语识别模块;(A)视频解码模块将输入的面部视频信号转换成帧图像序列,送入唇部定位单元;(B)唇部定位模块从帧图像序列中发现并定位人脸,并进一步检测、确定唇部区域,从原图像中分离出唇部图像,提交一个只包含唇部动作变化的唇动视频序列给唇动分割模块;(C)唇动分割模块将唇动视频序列以单音节为单位分割成若干单音节唇动图像序列,一个单音节唇动图像序列由若干连续的帧组成,提交给特征提取模块;(D)特征提取模块针对单音节唇动图像序列中每帧图像,提取并描述唇部发音时低级视觉特征和高级视觉特征,低级视觉特征包含直接基于该帧图像像素或经变换后的特征;高级视觉特征包含唇部轮廓参数,唇部轮廓参数根据该帧图像的唇部区域及该帧图像的低级视觉特征计算,将低级视觉特征和高级视觉特征融合,形成该帧图像的唇动特征向量;单音节唇动图像序列中每帧图像处理后,将各帧图像的唇动特征向量组成的单音节唇动特征向量提交给唇读识别模块或者语料库;(E)语料库存储汉语中各个单音节发音时的单音节唇动图像序列样本、单音节唇动图像序列样本的特征向量、单音节唇动图像序列样本与单音节标识符之间的对应关系,以及单音节标识符与拼音文字之间的对应关系;(F)模型建立模块从语料库中获取单音节唇动图像序列样本的特征向量作为训练对象,通过学习算法建立识别模型,将模型参数以文件方式保存于本模块,并在需要时传递给唇语识别模块;(G)唇语识别模块对单音节唇动图像序列进行识别,从特征提取模块获取单音节唇动特征向量,结合从模型建立模块获取的模型参数,对单音节唇动特征向量进行分类,再从语料库中索引得到单音节的拼音文字,最后将单音节的拼音文字进行组合输出给最终用户。2. 如权利要求1所述的单音节语言唇读识别系统,其特征在于所述唇部定位模块(20)包括人脸检测单元(21)、唇色增强单元(22)和唇部区域确定单元(23);人脸检测单元(21)从所述视频解码模块(10)中获取帧图像,确定每一帧图像中的人脸区域,并分割出人脸图像,将其提交给唇色增强单元22;唇色增强单元(22)对人脸图像下1/3区域进行图像增强,将增强后 的下1/3区域脸部图像提交给唇部区域确定单元(23);唇部区域确定单元(23)对增强的下1/3区域人脸图像进行处理,确 定唇部位置,计算左右唇角、上唇顶点和下唇底点的坐标,并根据这些 坐标提取嘴唇区域图像,结合时间序列形成唇动视频序列提交给所述唇 动分割模块。3. 如权利要求1所述的单音节语言唇读识别系统,其特征在于所 述唇动分割模块(30)包括唇动描述单元(31)、唇速描述单元(32)、 阈值判断单元(33);唇动描述单元(31)从唇部定位模块(20)获取唇动视频序列,计 算其中每一帧的唇动瞬时位置速度场,并将其提交给唇速描述单元(32);唇速描述单元(32)从每一帧的唇动瞬时位置速度场计算表示唇部 运动速度规律的唇速点,并将各帧的唇速点进行曲线拟合,得到唇速曲 线,将其提交给阈值判断单元(33); 阈值判断单元(33)根据曲线极小值点和阈值对唇速曲线进...

【专利技术属性】
技术研发人员:王天江刘芳周慧华龚立宇陈刚
申请(专利权)人:华中科技大学
类型:发明
国别省市:83

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利