基于协同过滤算法的实时语音驱动人脸唇部同步动画系统技术方案

技术编号：4081471 阅读：374 留言：0更新日期：2012-04-11 18:40

本发明专利技术是基于协同过滤算法的实时语音驱动人脸唇部同步动画系统，通过实时录入语音，使得人物头部模型做出与输入语音同步的唇部动画。系统包含有音视频编码模块，该模块对采集到的语音和人脸三维特征点运动信息分别进行Ｍｅｌ频率倒谱参数编码和“动态图像专家组”（ＭＰＥＧ－４）标准中的人脸动画参数编码，由音视频编码模块得到Ｍｅｌ频率倒谱参数和人脸动画参数多模态同步库；协同过滤模块使用协同过滤算法，由新输入语音的Ｍｅｌ频率倒谱参数编码结合Ｍｅｌ频率倒谱参数和人脸动画参数多模态同步库求出与语音同步的人脸动画参数；动画模块由人脸动画参数驱动人脸模型进行动画。本发明专利技术系统有较好的真实感，实时性以及更广泛的应用环境。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种语音驱动人脸动画系统，具体地涉及基于协同过滤算法的实时语音驱动人脸唇部同步动画系统。
技术介绍
和谐人机交互技术一直都是人们关注的对象，语音驱动的人脸唇部动画技术是其重要组成部分，它能够对一个人的声音进行处理，使之在合成的人脸头像上进行与语音同步的人脸唇部动画，其研究成果对人脸动画、人机对话等方向的发展具有重要的意义。而目前已有的大多数人脸语音同步唇部动画技术一般基于语音识别技术，这种技术必须首先进行语音识别，从得出的音素出发来形成相应的视位。视位是与语音的音素相对应的关键嘴型。连续的视位拼接起来即可形成人脸唇部动画。由于目前语音识别本身的识别率比较低，速度也比较慢。与之相比，直接从语音得到动画参数的方法会更加有效。
技术实现思路
为了解决现有技术问题，本专利技术的目的是采用基于样本的语音驱动唇部动画方法，能够实现连续语音帧到唇部动画帧的同步转换。其优点是能够在唇部动画时保留语音的时间和能量结构信息，唇部动画能很好体现原始语音的韵律变化。另外该系统易于在与 MPEG-4兼容的头像模型间进行移植，可以进行男女声的语音驱动唇部动画；本专利技术的系统易于实现，录制的双模态语音动画数据库不需要人工标注。系统能根据算法产生库中不存在的动画参数，使得系统有着丰富的表现力；为此，本专利技术构建一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统。为实现上述目的，本专利技术的一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统包括音视频编码模块、协同过滤模块和人脸动画模块，其中利用数字录音设备，实时地接收输入的语音信号，并实时...

【技术保护点】
一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统，其特征在于包括音视频编码模块、协同过滤模块和人脸动画模块，其中：利用数字录音设备，实时地接收输入的语音信号，并实时地输出与语音同步的人脸唇部动画，在生成多模态同步库时不需要手工标注，可任意输入男女语音进行语音驱动的唇部动画；在离线过程中，首先利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息；音视频编码模块的输入端接收来自多模态数据采集设备采集到的语音和人脸三维特征点运动信息，对其中的语音信息和人脸三维特征点运动信息分别进行Ｍｅｌ频率倒谱参数（ＭＦＣＣ）编码和人脸动画参数（ＦＡＰ）编码；在实时过程中，音视频编码模块的输入端接收来自数字录音设备实时录制的语音信息；音视频编码模块具有一输出端，在离线过程中输出ＭＦＣＣ－ＦＡＰ多模态同步库；在实时过程中输出语音的Ｍｅｌ频率倒谱参数；协同过滤模块与音视频编码模块连接，协同过滤模块输入端接收来自于音频编码模块生成的Ｍｅｌ频率倒谱参数、音视频编码模块生成Ｍｅｌ频率倒谱参数和人脸动画参数多模态同步库中的多模态数据；协同过滤模块具有一输出端输出使用协同过滤算法实时生成与...

【技术特征摘要】
一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统，其特征在于包括音视频编码模块、协同过滤模块和人脸动画模块，其中利用数字录音设备，实时地接收输入的语音信号，并实时地输出与语音同步的人脸唇部动画，在生成多模态同步库时不需要手工标注，可任意输入男女语音进行语音驱动的唇部动画；在离线过程中，首先利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息；音视频编码模块的输入端接收来自多模态数据采集设备采集到的语音和人脸三维特征点运动信息，对其中的语音信息和人脸三维特征点运动信息分别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码；在实时过程中，音视频编码模块的输入端接收来自数字录音设备实时录制的语音信息；音视频编码模块具有一输出端，在离线过程中输出MFCC FAP多模态同步库；在实时过程中输出语音的Mel频率倒谱参数；协同过滤模块与音视频编码模块连接，协同过滤模块输入端接收来自于音频编码模块生成的Mel频率倒谱参数、音视频编码模块生成Mel频率倒谱参数和人脸动画参数多模态同步库中的多模态数据；协同过滤模块具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数；人脸动画模块与协同过滤模块连接，人脸动画模块输入端接收来自...

【专利技术属性】
技术研发人员：陶建华，穆凯辉，车建峰，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人