联合语气词特征的视音频驱动人脸动画实现方法及系统技术方案

技术编号:27978954 阅读:59 留言:0更新日期:2021-04-06 14:13
一种联合语气词特征的视音频驱动人脸动画方法及系统,通过提取语音特征构建出语音特征矩阵,利用语气词增强训练网络的多层卷积操作对特征矩阵进行采样并映射到低维空间的中间变量;对输入的语音转换成文字,从文字内容中识别出语气词并构建one‑hot向量,与中间变量拼接后得到包含语气词特征的中间变量;再通过语气词增强训练网络进行卷积后映射为当前帧的表情AU参数,用于与视频追踪、语音预测算法生成的AU参数拟合后作为人脸模型的驱动参数,实现表情增强。本发明专利技术通过输入用户面部的视频内容和用户发声的音频内容,就可以联合驱动虚拟场景中的三维Avatar模型,在实时驱动的基础上,使整体和局部的面部动画都得到较为逼真和生动的表现效果。

【技术实现步骤摘要】
联合语气词特征的视音频驱动人脸动画实现方法及系统
本专利技术涉及的是一种计算机图形学领域的技术,具体是一种联合语气词特征的视音频驱动人脸动画实现方法及系统。
技术介绍
现有人脸表情动画的实现方式包括传统的交互建模与关键帧动画方法、基于脸部marker跟踪的动作捕捉方法、基于视频流图像的驱动方法和基于音频预测的驱动方法。其中交互建模与关键帧动画方法广泛的应用于游戏、三维动画等领域,是制作较高精度三维面部动画的主流方法。该方法具有精度较高、技术成熟、适合流水线生产等优点,但是需要建模师和动画师长时间的设置和调整,耗时耗力,且生产开销大。基于脸部marker跟踪的动作捕捉方法广泛的应用于电影工业级别的人脸动画生产,与VR、AR相关的电影生产环境紧密结合。该方法具有专业性强,动画精细度高,效果逼真等优点,但是需要高精度设备的支持和整个团队人员的协同开发,开发耗时长,耗资巨大。基于视频流图像的驱动方法采用神经网络进行特征学习,将视频流图像信息输入网络,输出每一帧的人脸表情AU参数值或者模型顶点位置等面部形变参数,来自动驱动的人脸动画。但该技术依赖视频信息本文档来自技高网...

【技术保护点】
1.一种联合语气词特征的视音频驱动人脸动画实现方法,其特征在于,通过提取语音特征构建出语音特征矩阵,利用语气词增强训练网络的多层卷积操作对特征矩阵进行采样并映射到低维空间的中间变量;对输入的语音转换成文字,从文字内容中识别出语气词并构建one-hot向量,与中间变量拼接后得到包含语气词特征的中间变量;再通过语气词增强训练网络进行卷积后映射为当前帧的表情AU参数,用于与视频追踪、语音预测算法生成的AU参数拟合后作为人脸模型的驱动参数,实现表情增强;/n所述的语音特征矩阵,采用python_speech_feature库提取,得到的语音特征为音频MFCC、Fbank或SSC,设置时间窗口,对多帧的...

【技术特征摘要】
1.一种联合语气词特征的视音频驱动人脸动画实现方法,其特征在于,通过提取语音特征构建出语音特征矩阵,利用语气词增强训练网络的多层卷积操作对特征矩阵进行采样并映射到低维空间的中间变量;对输入的语音转换成文字,从文字内容中识别出语气词并构建one-hot向量,与中间变量拼接后得到包含语气词特征的中间变量;再通过语气词增强训练网络进行卷积后映射为当前帧的表情AU参数,用于与视频追踪、语音预测算法生成的AU参数拟合后作为人脸模型的驱动参数,实现表情增强;
所述的语音特征矩阵,采用python_speech_feature库提取,得到的语音特征为音频MFCC、Fbank或SSC,设置时间窗口,对多帧的语音特征构建语音特征矩阵;
所述的语气词增强训练网络包括四层卷积层;
所述的语气词包括:在语句中用于表示语气,与情绪变化直接相关的词语。


2.根据权利要求1所述的联合语气词特征的视音频驱动人脸动画实现方法,其特征是,所述的语气词增强训练网络中第一层和第二层卷积层的filter大小为64,kernel大小为4×1,strides为4×1,第三层卷积层的filter大小为32,kernel大小为3×1,strides为3×1,第四层卷积层的filter大小为16,kernel大小为2×1,strides为2×1,各卷积层之间使用ReLu函数进行激活。


3.根据权利要求1所述的联合语气词特征的视音频驱动人脸动画实现方法,其特征是,所述的语气词增强训练网络,通过以下方式构建得到用于训练的数据集,包括以下步骤:
1)人工挑选视频中含有语气词的片段,标注片段的起止时间;
2)使用工具自动剪切视频,得到含有语气词的各个视频片段;
3)对各个视频片段中的音频内容进行处理,转成文字内容;
4)人工矫正文字内容。


4.一种实现上述任一权利要求所述方法的联合语气词特征的视音频驱动人脸动画实现系统,其特征在于,包括:openface视频追踪模块、语音预测模块、语气词增强模块和可视化模块,其中:openface视频追踪模块根据处理视频输入信息,进行面部位姿计算得到面部旋转角、视线旋转角,进行表情AU参数检测得到AU强度参数,语音预测模块根据处理语音输入信息,通过语音特征窗口预测表情AU参数,语气词增强模块转换语音内容为文字,进行语气词特征提取后进一步进行表情增强处理,并使用语气词特征搭建语气词增强训练网络预测用于增强的表情AU参数,可视化模块根据视频追踪模块、语音预测模块和语气词增强模块输出的表情AU参数,进行融合处理,得到最终用于驱动人脸模型的AU参数,驱动人脸模型动画。


5.根据权利要求4所述的视音频驱动人脸动画实现系统,其特征是,所述的Openface视频追踪模块包括:人脸识别单元、面部关键点检测单元、面部位姿检测单元以及AU强度估计单元,其中:人脸识别单元根据当前帧的图像数据信息,进行人脸检测并得到人脸位置结果集,面部关键点检测单元根据人脸位置信息,进行关键点检测处理并得到面部关键点集,面部位姿检测单元根据面部关键点信息,进行PnP求解并得到面部旋转角,AU强度估计单元根据面部关键点位置和图像数据,生成定向梯度直方图,并基于CE-CLM模型求解各AU强度参数。


6.根据权利要求4所述的视音频驱动人脸动画实现系统,其特征是,所述的语音预测模块包括:语音特征提取单元、AU分类检测单元以及AU强度回归预测单元,其中:语音特征提取单元根据输入的音频序列信息,使用python_speech_feature库提取MFCC、Fbank、SSC这三种音频特征;AU分类检测单元根据音频特征信息,构建特征窗口向量,通过输入AU分类阶段的网络并输出得到当前帧的AU分类结果;AU强度回归预测单元根据AU分类单元的特征窗口向量和AU分类结果,通过输入AU强度回归阶段的网络并输出得到当前帧的AU强度估计结果。


7.根据权利要求4或6所述的视音频驱动人脸动画实现系统,其特征是,所述的语音预测包括:AU分类阶段...

【专利技术属性】
技术研发人员:李舜肖双九
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1