一种语音同步驱动三维人脸口型与面部姿势动画的方法技术

技术编号：8959894 阅读：298 留言：0更新日期：2013-07-25 19:25

本发明专利技术公开了一种语音同步驱动三维人脸口型与面部姿势动画的方法，通过用户输入新的语音信息，经过预处理之后，在虚拟人的人脸头像上合成与语音同步的口型动画和面部姿势动画。本发明专利技术具体包括两个阶段，在训练阶段，通过KNN和HMM的混合模型实现语音可视化建模；在合成阶段，通过用户输入新的语音信息，先进行语音信号的特征提取，再经过KNN和HMM混合模型生成与语音信号相对应的人脸面部姿势和口型帧序列参数，经过平滑处理后，使用Xface开源软件合成更加细腻、丰富的三维人脸动画。本发明专利技术不仅具有重要的理论研究价值，而且在可视通信、虚拟会议、游戏娱乐和教学辅助等领域有着广阔的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音驱动三维人脸动画合成
，具体涉及一种基于KNN与HMM混合模型的语音可视化协同发音建模。
技术介绍
语音驱动三维人脸动画合成的研究是自然人机交互领域的重要内容。语音驱动三维人脸动画合成是对一个人的声音进行预处理，使之在虚拟的三维人脸头像上合成与语音对应的口型动画(lip animation)和面部表情(facial expressions)。目前,这方面的研究主要集中在合成同步、精确的口型动画，以及通过语音分析实现对面部表情的分类上，还没有一个较好的方法来实现语音同时驱动虚拟人的口型动画和面部姿势(facialgestures or visual prosody)。所谓面部姿势是指头部动作(head movements)、眼睛动作(eye movements)和眉毛动作(eyebrow movements)等非语言信息。相对于口型动画与语音有明显的关联关系，面部姿势跟语音的关联关系比较微弱，因此获得比较准确的面部姿势比较困难，这就使得语音驱动虚拟人的表情木讷、呆滞，没有较为丰富的信息反馈，从而降低了人机交互的可理解性和认知度。这是语音驱动三维人脸动画领域必须解决的瓶颈。为了实现语音同步驱动人脸口型和面部姿势，语音可视化建模是必不可少的一步。语音可视化建模是语言信息与合成人脸的接口，是驱动人脸产生语音动画的核心结构。语音可视化模型通过分析语音信息，建立音素到视素的映射，将音素信息转换成视素信息，将语音学上的协同发音体现到视觉效果上。如何建立语音与口型、语音与面部姿势的映射关系，如何通过一个简单而完全自动化的方法来获得协同发音模型参数...

【技术保护点】
一种语音同步驱动三维人脸口型与面部姿势动画的方法，通过对用户的声音进行预处理，使之在虚拟人的人脸头像上合成与语音同步的口型和面部姿势动画，包括以下主要步骤：?（1）视素归类，将部分声韵母根据它们所对应的口型进行视素归类，共分为16类，F0?F15；?（2）建立音频/视频语料库，用高清摄录机进行录制，由20个人，10男10女，读取步骤1中的已经分好类的声韵母，同时录制好音频和视频，在录制语音的时候，采集与语音同步的脸部视频信息；?（3）提取音频/视频帧特征参数，从步骤2录制得到的音频数据中提取出语音信号的音高、音强和和13维的Mel频率倒谱系数MFCC，同时，截取与语音同步的视频帧，提取视频帧中各声韵母所对应的基于MPEG?4定义的口型特征参数和面部姿势特征参数，然后计算各特征点坐标与标准帧坐标的差值Vel＝{V1,V2,...,Vn}，再计算按MPEG?4定义的人脸上的对应尺度参考量P＝{P1,P2,...,Pn}，通过公式(1)，?Fapi＝(Vi(x|y)/Pi(x|y))*1024????(1)?得到人脸运动参数；其中，Fapi表示与第i个特征点对应的人脸运动参数，Vi(x|y)...

【技术特征摘要】
1.一种语音同步驱动三维人脸口型与面部姿势动画的方法，通过对用户的声音进行预处理，使之在虚拟人的人脸头像上合成与语音同步的口型和面部姿势动画，包括以下主要步骤: (O视素归类，将部分声韵母根据它们所对应的口型进行视素归类，共分为16类，F0-Fi5 ； (2)建立音频/视频语料库,用高清摄录机进行录制，由20个人，10男10女,读取步骤I中的已经分好类的声韵母，同时录制好音频和视频，在录制语音的时候，采集与语音同步的脸部视频信息； (3)提取音频/视频帧特征参数，从步骤2录制得到的音频数据中提取出语音信号的音高、音强和和13维的Mel频率倒谱系数MFCC，同时，截取与语音同步的视频帧，提取视频帧中各声韵母所对应的基于MPEG-4定义的口型特征参数和面部姿势特征参数，然后计算各特征点坐标与标准巾贞坐标的差值Vel = (V1, V2,, Vj ,再计算按MPEG-4定义的人脸上的对应尺度参考量P = (P1, P2,, PnI，通过公式⑴，Fapi = (Vi0ily)A3i (x|y)) *1024 (I) 得到人脸运动参数；其中，Fapi表示与第i个特征点对应的人脸运动参数，Vi(x!y)表示的Vi的X或y坐标，Pi(x|y)表示与Vi(x|y)对应的尺度参考量； (4)将步骤3中的语音信号的特征参数13—MFCC进行降维处理，利用PCA方法将语音信号的特征向量、口型帧的特征向量进行降维处理，将语音信号中13—MFCC降低为4维向量，将口型特征参数降为4维向量； (5)运用k-means算法将步骤4中的语音特征参数和口型特征参数进行聚类分析； (6)运用KNN...

【专利技术属性】
技术研发人员：侯进，米辉辉，
申请(专利权)人：西南交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人