基于协同过滤算法的实时语音驱动人脸唇部同步动画系统技术方案

技术编号:4081471 阅读:374 留言:0更新日期:2012-04-11 18:40
本发明专利技术是基于协同过滤算法的实时语音驱动人脸唇部同步动画系统,通过实时录入语音,使得人物头部模型做出与输入语音同步的唇部动画。系统包含有音视频编码模块,该模块对采集到的语音和人脸三维特征点运动信息分别进行Mel频率倒谱参数编码和“动态图像专家组”(MPEG-4)标准中的人脸动画参数编码,由音视频编码模块得到Mel频率倒谱参数和人脸动画参数多模态同步库;协同过滤模块使用协同过滤算法,由新输入语音的Mel频率倒谱参数编码结合Mel频率倒谱参数和人脸动画参数多模态同步库求出与语音同步的人脸动画参数;动画模块由人脸动画参数驱动人脸模型进行动画。本发明专利技术系统有较好的真实感,实时性以及更广泛的应用环境。

【技术实现步骤摘要】

本专利技术涉及一种语音驱动人脸动画系统,具体地涉及基于协同过滤算法的实时语 音驱动人脸唇部同步动画系统。
技术介绍
和谐人机交互技术一直都是人们关注的对象,语音驱动的人脸唇部动画技术是其 重要组成部分,它能够对一个人的声音进行处理,使之在合成的人脸头像上进行与语音同 步的人脸唇部动画,其研究成果对人脸动画、人机对话等方向的发展具有重要的意义。而目 前已有的大多数人脸语音同步唇部动画技术一般基于语音识别技术,这种技术必须首先进 行语音识别,从得出的音素出发来形成相应的视位。视位是与语音的音素相对应的关键嘴 型。连续的视位拼接起来即可形成人脸唇部动画。由于目前语音识别本身的识别率比较低, 速度也比较慢。与之相比,直接从语音得到动画参数的方法会更加有效。
技术实现思路
为了解决现有技术问题,本专利技术的目的是采用基于样本的语音驱动唇部动画方 法,能够实现连续语音帧到唇部动画帧的同步转换。其优点是能够在唇部动画时保留语音 的时间和能量结构信息,唇部动画能很好体现原始语音的韵律变化。另外该系统易于在与 MPEG-4兼容的头像模型间进行移植,可以进行男女声的语音驱动唇部动画;本专利技术的系统 易于实现,录制的双模态语音动画数据库不需要人工标注。系统能根据算法产生库中不存 在的动画参数,使得系统有着丰富的表现力;为此,本专利技术构建一种基于协同过滤算法的实 时语音驱动人脸唇部同步动画系统。为实现上述目的,本专利技术的一种基于协同过滤算法的实时语音驱动人脸唇部同步 动画系统包括音视频编码模块、协同过滤模块和人脸动画模块,其中利用数字录音设备,实时地接收输入的语音信号,并实时地输出与语音同步的人 脸唇部动画,在生成多模态同步库时不需要手工标注,可任意输入男女语音进行语音驱动 的唇部动画;在离线过程中,首先利用多模态数据采集设备同步地采集录制说话人在说话中语 音和人脸三维特征点运动信息;音视频编码模块的输入端接收来自多模态数据采集设备采 集到的语音和人脸三维特征点运动信息,对其中的语音信息和人脸三维特征点运动信息分 别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码;在实时过程中,音视频 编码模块的输入端接收来自数字录音设备实时录制的语音信息;音视频编码模块具有一输 出端,在离线过程中输出MFCC-FAP多模态同步库;在实时过程中输出语音的Mel频率倒谱 参数;协同过滤模块与音视频编码模块连接,协同过滤模块输入端接收来自于音频编码 模块生成的Mel频率倒谱参数、音视频编码模块生成Mel频率倒谱参数和人脸动画参数多 模态同步库中的多模态数据;协同过滤模块具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数;人脸动画模块与协同过滤模块连接,人脸动画模块输入端接收来自于协同过滤模 块生成的人脸动画参数,将这些人脸动画参数转化成人脸模型的运动信息;人脸动画模块 具有一输出端输出人脸动画参数,并由人脸动画参数驱动二维或三维人脸模型进行人脸唇 部动画。其中所述音视频编码模块包括音频编码子模块、Mel频率倒谱参数归一化处理 子模块、视频编码子模块以及MFCC-FAP同步处理子模块,其中音频编码子模块,其输入端接收由多模态数据采集设备同步录制的语音信息,对 语音信息进行语音信号的Mel频率倒谱参数编码; Mel频率倒谱参数归一化子模块与音频编码子模块连接,对音频进行编码,所述编 码的过程应用于离线过程中对多模态数据中的语音信息进行的编码,也用于实时过程中对 录入语音信息进行编码;视频编码子模块,其输入端接收由多模态数据采集设备同步录制的人脸三维特征 点运动信息、记录了标定好的人脸三维特征点位置的变化,对这些位置信息进行人脸动画 参数编码;MFCC-FAP同步处理模块分别与Mel频率倒谱参数归一化子模块和视频编码子模 块相连接,MFCC-FAP同步处理模块同步接收离线过程中对录入语音信息的编码及人脸动画 参数编码;从而形成Mel频率倒谱参数和人脸动画参数多模态同步库。本专利技术的有益效果本专利技术的第一方面,为实现上述目的,在该框架中,通过基于 协同过滤算法实现语音到人脸的唇部动画。传统的基于语音识别的人脸唇部动画系统,往 往需要语音识别模块进行辅助,由语音识别模块得出语音对应的音素,从音素得出对应的 视位,这种方法不仅需要语音识别模块比较准确,而且也要求音素对应的视位也应该准确, 很多时候音素对应的视位的选择需要人工仔细的挑选,这样往往需要耗费大量的人力。但 是在本方法是从语音直接求取动画参数,不要手工去挑选音素对应的视位信息,从而大大 降低了系统实现的复杂度和人工参与。本专利技术的第二个方面,为实现上述目的,本专利技术能够在用户实时输入语音信息时 同步地输出人脸动画。传统的基于语音识别的方法必须要依据上下文信息才能得出识别的 音素信息,这样就降低了系统的反应能力,从而不能实时地输出用户输入语音同步的人脸 动画。本专利技术的第三方面,为实现上述目的,本专利技术能够实现在合成语音同步动画时保 留语音中的韵律信息。在使用语音识别方法进行的人脸动画中,由于只是识别出音素,无法 保留语音中含有的韵律信息,从而无法保留语音的时间和能量结构信息,但是本专利技术是基 于实时录入语音的韵律结构来合成人脸唇部动画参数的,从而能在动画中保留语音的韵律 结构。附图说明通过以下结合附图的详细描述,本专利技术的上述和其它方面、特征和优点将变得更 加显而易见。附图中图1是本专利技术所提出的基于协同过滤算法的实时语音驱动人脸唇部同步动画总体框图。图2是本专利技术的音视频处理模块的框图。图3是本专利技术的协同过滤模块的框图。图4是本专利技术的人脸动画模块的框图。具体实施例方式下面结合附图和实例对本专利技术进一步说明,通过结合附图对系统各组成部件的详 细说明将会更好地描述实现本专利技术的步骤和过程。图1示出基于协同过滤算法的实时语音驱动人脸唇部同步动画系统示意图,系统 以C语言编写,在windows平台下可使用visual studio编译运行,在1 inux平台下可使用 GNU编译器套装(GCC)编译运行。在图1本专利技术的优选实施方案中,本专利技术系统被分为三 部分音视频编码模块1、协同过滤模块2、人脸动画模块3组成。其中,利用多模态数据采 集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息;利用数字录音设 备,实时地接收输入的语音信号,并实时地输出与语音同步的人脸唇部动画,在生成多模态 同步库时不需要手工标注,可任意输入男女语音进行语音驱动的唇部动画;多模态数据以 及实时语音输入信号与音视频编码模块1相连接,由音视频编码模块1产生编码参数,协同 过滤模块2与音视频编码模块1连接,协同过滤模块2与人脸动画模块3相连接。在离线过程中,音视频编码模块1的输入端接收来自多模态数据采集设备采集到 的语音和三维特征点运动信息,对语音信息和人脸三维特征点运动信息分别进行Mel频率 倒谱参数(MFCC)编码和人脸动画参数(FAP)编码;在实时过程中,音视频编码模块1的输 入端接收来自数字录音设备实时录制的语音信息;音视频编码模块1具有一输出端,在离 线过程中音视频编码模块输出Mel频率倒谱参数和人脸动画参数(MFCC-FAP)多模态同步 库;在实时过程中输出语音的Mel频率倒谱参数。协同过滤模块2的输入端本文档来自技高网...

【技术保护点】
一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统,其特征在于包括音视频编码模块、协同过滤模块和人脸动画模块,其中:利用数字录音设备,实时地接收输入的语音信号,并实时地输出与语音同步的人脸唇部动画,在生成多模态同步库时不需要手工标注,可任意输入男女语音进行语音驱动的唇部动画;在离线过程中,首先利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息;音视频编码模块的输入端接收来自多模态数据采集设备采集到的语音和人脸三维特征点运动信息,对其中的语音信息和人脸三维特征点运动信息分别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码;在实时过程中,音视频编码模块的输入端接收来自数字录音设备实时录制的语音信息;音视频编码模块具有一输出端,在离线过程中输出MFCC-FAP多模态同步库;在实时过程中输出语音的Mel频率倒谱参数;协同过滤模块与音视频编码模块连接,协同过滤模块输入端接收来自于音频编码模块生成的Mel频率倒谱参数、音视频编码模块生成Mel频率倒谱参数和人脸动画参数多模态同步库中的多模态数据;协同过滤模块具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数;人脸动画模块与协同过滤模块连接,人脸动画模块输入端接收来自于协同过滤模块生成的人脸动画参数,将这些人脸动画参数转化成人脸模型的运动信息;人脸动画模块具有一输出端输出人脸动画参数,并由人脸动画参数驱动二维或三维人脸模型进行人脸唇部动画。...

【技术特征摘要】
一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统,其特征在于包括音视频编码模块、协同过滤模块和人脸动画模块,其中利用数字录音设备,实时地接收输入的语音信号,并实时地输出与语音同步的人脸唇部动画,在生成多模态同步库时不需要手工标注,可任意输入男女语音进行语音驱动的唇部动画;在离线过程中,首先利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息;音视频编码模块的输入端接收来自多模态数据采集设备采集到的语音和人脸三维特征点运动信息,对其中的语音信息和人脸三维特征点运动信息分别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码;在实时过程中,音视频编码模块的输入端接收来自数字录音设备实时录制的语音信息;音视频编码模块具有一输出端,在离线过程中输出MFCC FAP多模态同步库;在实时过程中输出语音的Mel频率倒谱参数;协同过滤模块与音视频编码模块连接,协同过滤模块输入端接收来自于音频编码模块生成的Mel频率倒谱参数、音视频编码模块生成Mel频率倒谱参数和人脸动画参数多模态同步库中的多模态数据;协同过滤模块具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数;人脸动画模块与协同过滤模块连接,人脸动画模块输入端接收来自...

【专利技术属性】
技术研发人员:陶建华穆凯辉车建峰
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利