一种语音同步驱动三维人脸口型与面部姿势动画的方法技术

技术编号:8959894 阅读:298 留言:0更新日期:2013-07-25 19:25
本发明专利技术公开了一种语音同步驱动三维人脸口型与面部姿势动画的方法,通过用户输入新的语音信息,经过预处理之后,在虚拟人的人脸头像上合成与语音同步的口型动画和面部姿势动画。本发明专利技术具体包括两个阶段,在训练阶段,通过KNN和HMM的混合模型实现语音可视化建模;在合成阶段,通过用户输入新的语音信息,先进行语音信号的特征提取,再经过KNN和HMM混合模型生成与语音信号相对应的人脸面部姿势和口型帧序列参数,经过平滑处理后,使用Xface开源软件合成更加细腻、丰富的三维人脸动画。本发明专利技术不仅具有重要的理论研究价值,而且在可视通信、虚拟会议、游戏娱乐和教学辅助等领域有着广阔的应用前景。

【技术实现步骤摘要】

本专利技术涉及语音驱动三维人脸动画合成
,具体涉及一种基于KNN与HMM混合模型的语音可视化协同发音建模。
技术介绍
语音驱动三维人脸动画合成的研究是自然人机交互领域的重要内容。语音驱动三维人脸动画合成是对一个人的声音进行预处理,使之在虚拟的三维人脸头像上合成与语音对应的口型动画(lip animation)和面部表情(facial expressions)。目前,这方面的研究主要集中在合成同步、精确的口型动画,以及通过语音分析实现对面部表情的分类上,还没有一个较好的方法来实现语音同时驱动虚拟人的口型动画和面部姿势(facialgestures or visual prosody)。所谓面部姿势是指头部动作(head movements)、眼睛动作(eye movements)和眉毛动作(eyebrow movements)等非语言信息。相对于口型动画与语音有明显的关联关系,面部姿势跟语音的关联关系比较微弱,因此获得比较准确的面部姿势比较困难,这就使得语音驱动虚拟人的表情木讷、呆滞,没有较为丰富的信息反馈,从而降低了人机交互的可理解性和认知度。这是语音驱动三维人脸动画领域必须解决的瓶颈。为了实现语音同步驱动人脸口型和面部姿势,语音可视化建模是必不可少的一步。语音可视化建模是语言信息与合成人脸的接口,是驱动人脸产生语音动画的核心结构。语音可视化模型通过分析语音信息,建立音素到视素的映射,将音素信息转换成视素信息,将语音学上的协同发音体现到视觉效果上。如何建立语音与口型、语音与面部姿势的映射关系,如何通过一个简单而完全自动化的方法来获得协同发音模型参数,使得虚拟说话人动画的生成完全自动化,并且具有一定的真实感,是我们的研究内容。现如今,绝大多数研究学者仅仅是关注语音驱动三维人脸口型动画,而将语音驱动人脸面部姿势忽略了,这就使生成的虚拟人的人脸木讷呆滞,没有任何表情信息的反馈,从而降低了人机交互的可理解性和可认知度。所以,仅仅关注语音与三维人脸口型之间的关系,是不能充分反映人脸最真实的状况。中国专利CN101751695A(申请号:200910263558.8)公开了一种基于BP神经网络的语音驱动唇形动画的方法。其特征在于,包括以下步骤:将汉语中的音节结构采用Consonant-Vowel分类;采集若干个人的原始音频数据和视频数据;获取对应唇形信息;获取语音特征数据;对获取的唇形信息和语音特征数据进行训练和建模,依据训练的模型实时输入语音合成的唇形运动序列。该方法的可操作性不强,要求在训练样本比较充分的情况下,才有可能得到较好的判定效果,否则对于形变、尺度改变、光照改变等干扰,就不能很好地判定。并且神经网络方法存在合成动画不够连续,跳变现象较多、口型特征预测不准确、且动画流畅度和自然度欠佳的不足。中国专利CNlO 1930619A(申请号:201010263097.7)专利技术了一种基于协同过滤算法的实时语音驱动人脸唇部动画系统,通过输入实时录入的语音,使得任务头部模型做出与输入语音同步的唇部动画。系统包含有音视频编码模块,该模块对采集到的语音和人脸三维特征点运动分别进行Mel频率倒谱参数编码和MPEG-4标准中的人脸动画参数编码,由音视频编码模块得到的Mel频率倒谱参数和人脸动画参数多模态同步库;协同过滤模块使用协同过滤算法,由新输入语音的Mel频率倒谱参数编码结合Mel频率倒谱参数和人脸动画参数多模态同步库求出与语音同步的人脸动画参数;动画模块由人脸动画参数驱动人脸模型进行动画。该系统在完成语音驱动人脸动画的同时,必须在动画生成之前录制好语音文件进行唇读,不能对任意提供的朗读文本合成语音动画,所以具有一定的局限性。并且该系统仅仅是关注语音驱动三维人脸口型动画,而将语音驱动人脸姿势忽略了,这就使生成的虚拟人的人脸木讷呆滞,没有任何表情信息的反馈,从而降低了人机交互的可理解性和可认知度。迄今为止,还没有一个较为合理而高效的方法实现语音同步驱动三维人脸口型和面部姿势动画的合成。这是因为,虽然口型跟语音之间存在着明显的关联性,但面部姿势跟语音之间的关联关系比较微弱,因此语音驱动准确的面部姿势相对困难。采用什么方法去实现语音与口型、语音与面部姿势之间的同步关联问题,使语音可以同时驱动虚拟人唇部、眼睛、眉毛、头部等部位做出一整套相应的动作,这是本专利技术要解决的关键问题。
技术实现思路
鉴于现有技术的以上缺点,本专利技术的目的是,探索研究,使之克服现有技术的不足,尤其是克服CN101930619A仅仅注重语音驱动人脸口型动画而未考虑语音驱动虚拟人面部姿势的不足,提出一种基于KNN(K-nearest neighbour)与 HMM(Hidden Markov Model)混合模型的语音可视化协同发音建模新方法。其中,拟使用KNN分类器将分好类的声韵母与口型进行映射,同时用HMM将面部的六种基本动作(眨眼与凝视,扬眉与皱眉,点头与摇头)进行建模。本专利技术的目的是通过如下的手段实现的。,通过对用户的声音进行预处理,使之在虚拟人的三维人脸头像上合成与语音同步的口型动画和面姿势动画,包括以下主要步骤:1.视素归类,为了降低口型动画合成的复杂度,根据汉语拼音中各个声母和韵母口型动作的不同,将部分声韵母根据它们所对应的口型进行视素归类,共分为16类,F0-Fi5 ;2.建立音频/视频语料库,用高清摄录机进行录制,由20个人,10男10女,读取步骤I中的已经分好类的声韵母,同时录制好音频和视频,在录制语音的时候,采集与语音同步的脸部视频信息;3.提取音频/视频帧特征参数,从步骤2录制得到的音频数据中提取出语音信号的音高(pitch)、音强(intensity)和13维的Mel频率倒谱系数MFCC(Mel FrequencyCepstrum Coefficient),同时,截取与语音同步的视频巾贞,提取视频巾贞中各声韵母所对应的基于MPEG-4定义的口型特征参数和面部姿势特征参数,通过相对帧作差计算以及相对位移计算可以得到人脸运动参数;4.将步骤3中的语音信号的特征参数13 — MFCC进行降维处理,利用PCA(Principal Component Analysis)方法将语音信号的特征向量、口型特征参数进行降维处理,将语音信号中13 — MFCC降低为4维向量,将口型特征参数降为4维向量。5.运用k-means算法将步骤4中的语音信号的特征参数和口型特征参数进行聚类分析;6.运用KNN分类器将步骤5中的语音信号的特征参数与口型特征参数进行训练和识别;7.对于新输入的语音信号s,根据K-nearest neighbour准则求取相似度;通过求其相似度,然后选出相似度最大的前k个向量,这k个向量属于哪个类别的口型最多,则这个类别的口型就是与语音信号相匹配的口型;8.将面部姿势分为六种类型:眨眼和凝视、扬眉和皱眉、点头和摇头,通过脸部部位的各种动作组合来表达不同的人脸面部信息;9.用HMM对面部姿势进行建模,将提取的语音信号的音高和音强,与人脸六种基本面部姿势进行训练和识别;10.训练阶段:首先,从录制的语料库中选取部分语料,使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率;提取出语音信号的特征参数和面部姿势的特征参数,接着把本文档来自技高网
...

【技术保护点】
一种语音同步驱动三维人脸口型与面部姿势动画的方法,通过对用户的声音进行预处理,使之在虚拟人的人脸头像上合成与语音同步的口型和面部姿势动画,包括以下主要步骤:?(1)视素归类,将部分声韵母根据它们所对应的口型进行视素归类,共分为16类,F0?F15;?(2)建立音频/视频语料库,用高清摄录机进行录制,由20个人,10男10女,读取步骤1中的已经分好类的声韵母,同时录制好音频和视频,在录制语音的时候,采集与语音同步的脸部视频信息;?(3)提取音频/视频帧特征参数,从步骤2录制得到的音频数据中提取出语音信号的音高、音强和和13维的Mel频率倒谱系数MFCC,同时,截取与语音同步的视频帧,提取视频帧中各声韵母所对应的基于MPEG?4定义的口型特征参数和面部姿势特征参数,然后计算各特征点坐标与标准帧坐标的差值Vel={V1,V2,...,Vn},再计算按MPEG?4定义的人脸上的对应尺度参考量P={P1,P2,...,Pn},通过公式(1),?Fapi=(Vi(x|y)/Pi(x|y))*1024????(1)?得到人脸运动参数;其中,Fapi表示与第i个特征点对应的人脸运动参数,Vi(x|y)表示的Vi的x或y坐标,Pi(x|y)表示与Vi(x|y)对应的尺度参考量;?(4)将步骤3中的语音信号的特征参数13—MFCC进行降维处理,利用PCA方法将语音信号的特征向量、口型帧的特征向量进行降维处理,将语音信号中13—MFCC降低为4维向量,将口型特征参数降为4维向量;?(5)运用k?means算法将步骤4中的语音特征参数和口型特征参数进行聚类分析;?(6)运用KNN分类器将步骤5中的语音信号的特征参数与口型特征参数进行训练和识别;?(7)对于新输入的语音信号s,根据K?nearest?neighbour准则求取相似度;通过求其相似度,然后选出相似度最大的前k个向量,这k个向量属于哪个类别的口型最多,则这个类别的口型就是与语音信号相匹配的口型;?(8)将面部姿势分为六种类型:眨眼和凝视、扬眉和皱眉、点头和摇头,通过脸部部位的各种动作组合来表达不同的人脸面部信息;?(9)用HMM对面部姿势进行建模,将提取的语音信号的音高和音强,?与人脸六种基本面部姿势进行训练和识别;?(10)训练阶段:首先,从录制的语料库中选取部分语料,使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率;提取出语音信号的特征参数和面部姿势的特征参数,接着把语音特征参数作为观察值序列,通过Baum?Welch重估算法训练各相应的HMM,然后用Viterbi算法搜索并记录下语音特征参数所对应的最优状态序列;用HMM建模将面部姿势六种类型的特征参数与语音特征参数所对应的最优状态序列建立对应关系;?(11)识别阶段:对新输入的语音信号进行特征提取,分析其音高和音强,然后根据训练好的HMM,将新的语音特征参数作为HMM的观察值序列,通过Veterbi算法搜索并获取最优状态序列;计算新输入语音信号与训练库中的图像观察值序列中的各个人脸面部姿势的相似或然率P(O|M);找出最大相似或然率,对应的HMM即为与新输入的语音信号相匹配的人脸面部姿势;?(12)依据以上步骤得到与语音信号相对应的人脸面部姿势和口型帧序列参数,经过平滑处理后,使用Xface开源软件合成最终的人脸动画。...

【技术特征摘要】
1.一种语音同步驱动三维人脸口型与面部姿势动画的方法,通过对用户的声音进行预处理,使之在虚拟人的人脸头像上合成与语音同步的口型和面部姿势动画,包括以下主要步骤: (O视素归类,将部分声韵母根据它们所对应的口型进行视素归类,共分为16类,F0-Fi5 ; (2)建立音频/视频语料库,用高清摄录机进行录制,由20个人,10男10女,读取步骤I中的已经分好类的声韵母,同时录制好音频和视频,在录制语音的时候,采集与语音同步的脸部视频信息; (3)提取音频/视频帧特征参数,从步骤2录制得到的音频数据中提取出语音信号的音高、音强和和13维的Mel频率倒谱系数MFCC,同时,截取与语音同步的视频帧,提取视频帧中各声韵母所对应的基于MPEG-4定义的口型特征参数和面部姿势特征参数,然后计算各特征点坐标与标准巾贞坐标的差值Vel = (V1, V2,, Vj ,再计算按MPEG-4定义的人脸上的对应尺度参考量P = (P1, P2,, PnI,通过公式⑴,Fapi = (Vi0ily)A3i (x|y)) *1024 (I) 得到人脸运动参数;其中,Fapi表示与第i个特征点对应的人脸运动参数,Vi(x!y)表示的Vi的X或y坐标,Pi(x|y)表示与Vi(x|y)对应的尺度参考量; (4)将步骤3中的语音信号的特征参数13—MFCC进行降维处理,利用PCA方法将语音信号的特征向量、口型帧的特征向量进行降维处理,将语音信号中13—MFCC降低为4维向量,将口型特征参数降为4维向量; (5)运用k-means算法将步骤4中的语音特征参数和口型特征参数进行聚类分析; (6)运用KNN...

【专利技术属性】
技术研发人员:侯进米辉辉
申请(专利权)人:西南交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1