实时动态嘴唇跟踪方法技术

技术编号:5351775 阅读:394 留言:0更新日期:2012-04-11 18:40
一种图像处理和模式识别技术领域的方法,特别是一种实时动态嘴唇跟踪方法。包括:通过数码摄像机拍摄并获取包含嘴唇区域在内的图像序列;通过基于模糊聚类和卡尔曼预测的连续图像嘴唇分割方法,将图像中所有像素点分为嘴唇像素点或非嘴唇像素点,并输出所有像素点属于嘴唇像素点的概率;通过14点动态形状模型和卡尔曼预测,在步骤二提供的嘴唇概率分布图的基础上,获取嘴唇图像序列中每一帧中的嘴唇轮廓,本发明专利技术能够自动跟踪图像序列中嘴唇的运动,具有较高的处理速度(保证实时性)和识别准确率。

【技术实现步骤摘要】

本专利技术涉及的是一种图像处理和模式识别
的方法,特别是一种实时动 态嘴唇跟踪方法。
技术介绍
近年来,自动化语音识别技术(Automatic speech recognition,ASR)取得了长足的进步,并形成了一系列较为成熟的产品,能够在信噪比较高的环境下得到较好的识别 效果。然而,这些系统的性能往往受制于背景噪声的程度,在重噪声环境下,如车内、 工厂、机场等等,这些系统所取得的效果常常不能令人满意。于是,越来越多的学者从 音频以外的信源寻求提高语音识别效果的方法。McGurk效应(the McGurk effect)揭示了 说话人讲述过程中声/视觉信息之间存在着密不可分的内在联系。因此,人们想到通过 引入嘴唇运动这一视觉信息,辅助完成对于讲述内容的理解,该类语音识别系统称为自 动化唇读系统。在上述系统中,首要并且最为关键的一个步骤是准确、快速地从视频中 获取嘴唇运动变化情况,即实时嘴唇跟踪方法。其准确性和可靠性往往直接决定了一个 唇读系统的性能优劣。经过对现有技术文献的检索发现,A+Caplier在第11届国际图像分析和处理大会 (Proceedings of 1 Ith International Conference on Image Analysis and Processing, page 8-13) 上发表的“嘴唇区域检测和跟踪”(Lip detection and tracking),该文采用亮度边缘强度为检测嘴唇轮廓的标准,通过迭代的方法将嘴唇边缘收敛至最强边缘处。同时在合理嘴唇 模型的限定下,保证了最终得到嘴唇模型的合理性。该技术的不足在于第一,这是一 种针对灰度(亮度)图像的嘴唇跟踪技术,由于缺乏色度信息,受光照情况影响较大;第 二,该技术是依据嘴唇图像的亮度边缘,而边缘信息取决于图像的对比度,并且未化妆 的嘴唇图像往往是低对比度的,造成边缘信息的不稳定。基于以上两点,该技术的准确 性和鲁棒性都有待提高。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提出一种,使 其实现对于讲话人嘴唇运动的获取和跟踪,在获取较高匹配准确率的同时,保证实时的 处理速度。本专利技术通过以下技术方案实现的本专利技术包括如下步骤步骤一,通过 数码摄像机拍摄并获取包含嘴唇区域在内的图像序列。由于常用 数码摄像机采集的颜色空间为RGB颜色空间,而该空间并非符合人眼色差视觉的均勻色 彩空间。因此,需要将其转化为CIE-LAB均勻色彩空间,具体如下f0.490 0.310 0.200YR'权利要求1.一种,其特征在于,包括如下步骤步骤一,通过数码摄像机拍摄并获取包含嘴唇区域在内的图像序列; 步骤二,通过基于模糊聚类和卡尔曼预测的连续图像嘴唇分割方法,将图像中所有 像素点分为嘴唇像素点或非嘴唇像素点,并输出所有像素点属于嘴唇像素点的概率;步骤三,通过14点动态形状模型和卡尔曼预测,在步骤二提供的嘴唇概率分布图的 基础上,获取嘴唇图像序列中每一帧中的嘴唇轮廓。2.根据权利要求1所述的,其特征是,当所述的数码摄像机采 集的颜色空间为RGB颜色空间,将其转化为CIE-LAB均勻色彩空间,具体如下3.根据权利要求1所述的,其特征是,所述的分割方法如下对于一幅NXM的图像I,X= {Xl,1,xr, s,…,xN, M}代表图像中所有像素 点的颜色信息集合,其中^ s e Rq代表位于坐标(r,s)像素点的颜色特征;另外,设头,r, s为颜色特征Xn s与第i个颜色中心V1之间的欧式距离,其中i = 0 代表嘴唇类,i = 1代表非嘴唇类;最后,整个基于模糊聚类技术的嘴唇分割算法目标函数如下4.根据权利要求1所述的,其特征是,所述的嘴唇像素点的概 率,整个嘴唇分割过程即采用梯度下降的迭代方式求得使目标函数最小的隶属度矩阵最 优解,对色彩中心和嘴唇空间位置的卡尔曼预测的作用为通过前若干帧的色彩中心和嘴 唇空间位置来预测当前帧的嘴唇/非嘴唇色彩中心和嘴唇空间位置,最终输出结果为图 像中所有像素点属于嘴唇像素点的概率,即uo,r,s,V(r,s) ∈ I。5.根据权利要求4所述的,其特征是,所述卡尔曼预测为 Xk = Axh+Wh6.根据权利要求4所述的,其特征是,所述的卡尔曼预测的计 算是一个迭代递归的过程,具体如下1)初始状态和初始估计误差协方差初始化;2)根据前一步的状态对当前状态进行预测,同时使用H测量函数就可以通过预测状 态获得预测的测量值,该测量值就是所需要的经过卡尔曼滤波后的修正结果;3)根据当前观测的测量值对系统模型进行修正,将当前帧测量值的最终输出输入修 正过程,对系统模型进行修正;4)重复步骤2)和3)直至嘴唇序列的最后一帧。7.根据权利要求1所述的,其特征是,所述的获取嘴唇图像序 列中每一帧中的嘴唇轮廓定义的目标函数为全文摘要一种图像处理和模式识别
的方法,特别是一种。包括通过数码摄像机拍摄并获取包含嘴唇区域在内的图像序列;通过基于模糊聚类和卡尔曼预测的连续图像嘴唇分割方法,将图像中所有像素点分为嘴唇像素点或非嘴唇像素点,并输出所有像素点属于嘴唇像素点的概率;通过14点动态形状模型和卡尔曼预测,在步骤二提供的嘴唇概率分布图的基础上,获取嘴唇图像序列中每一帧中的嘴唇轮廓,本专利技术能够自动跟踪图像序列中嘴唇的运动,具有较高的处理速度(保证实时性)和识别准确率。文档编号G06K9/62GK102013103SQ201010571128公开日2011年4月13日 申请日期2010年12月3日 优先权日2010年12月3日专利技术者刘功申, 李建华, 李生红, 李翔, 王士林 申请人:上海交通大学本文档来自技高网
...

【技术保护点】
一种实时动态嘴唇跟踪方法,其特征在于,包括如下步骤:步骤一,通过数码摄像机拍摄并获取包含嘴唇区域在内的图像序列;步骤二,通过基于模糊聚类和卡尔曼预测的连续图像嘴唇分割方法,将图像中所有像素点分为嘴唇像素点或非嘴唇像素点,并输出所有像素点属于嘴唇像素点的概率;步骤三,通过14点动态形状模型和卡尔曼预测,在步骤二提供的嘴唇概率分布图的基础上,获取嘴唇图像序列中每一帧中的嘴唇轮廓。

【技术特征摘要】

【专利技术属性】
技术研发人员:王士林李建华刘功申李翔李生红
申请(专利权)人:上海交通大学
类型:发明
国别省市:31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1