一种基于动作及语音特征的人脸图像动画方法和系统技术方案

技术编号：33352651 阅读：18 留言：0更新日期：2022-05-08 10:01

本发明专利技术公开了一种基于动作及语音特征的人脸图像动画方法和系统，包括：图像驱动方式及语音驱动方式；其中图像驱动方式为：输入一个人脸的谈话视频和另一个人的人脸，得到另一个人原本是静态图片的动态图像视频；语音驱动方式为：针对某个特定人物进行训练，当使用另一个人的特征进行预测的时候，对特征进行一步转化，将其转化为被训练的人的声音特征，将声音特征进行人脸特征转化，获取人脸图像动画。本发明专利技术能够实现视频与音频的两种驱动方式对目标人物进行驱动，驱动方式多样，可以满足多种需求。种需求。种需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动作及语音特征的人脸图像动画方法和系统

[0001]本专利技术属于图像动画生成
，更具体的说是涉及一种基于动作及语音特征的人脸图像动画方法和系统。

技术介绍

[0002]图像动画在影视制作，摄影，电商等领域都有着比较广泛的应用。具体来说，给定一个人物形象，我们可以通过某种驱动方式使这个人“动起来”。这个过程有很多种实现的方式，如果从图像数据中获取特征，我们需要将图像特征转化为人脸或者动作的特征，并将这些特征加在目标人脸上；如果从语音数据中获取特征，我们可以将这些语音特征转化为目标人脸的面部特征，从而通过这些特征生成目标人物的人脸。
[0003]图像领域的三维的方法，常规的做法是对目标物体进行三维的建模，然后输入一系列动作来驱动这个三维模型，通过在虚拟空间内设置相机来得到目标物体的动作视频。这种方法首先需要对物体进行三维建模，需要大量物体的先验信息来约束模型，通过计算机的图形技术来获取最后的结果，其中的建模，投影，渲染等流程需要耗费比较多的计算机资源。对于二维的方法，近些年随着人工智能技术的发展，涌现出一大批深度学习的模型来完成图像生成的任务，其中比较有代表性的有生成对抗网络(Generative Adversarial Networks)，变分自编码器(Variational Auto
‑
Encoders)等等。但是这些方法一般来说需要做大量的提前标注，同时无法将整个流程推广到相同类别的任意物体上。为了解决标注所需的人力资源，同时可以将流程应用到相同类别的任意物体上，Siaro...

【技术保护点】

【技术特征摘要】
1.一种基于动作及语音特征的人脸图像动画方法，其特征在于，包括：图像驱动方式及语音驱动方式；其中图像驱动方式为：输入一个人脸的谈话视频和另一个人的人脸，得到另一个人原本是静态图片的动态图像视频；语音驱动方式为：针对某个特定人物进行训练，当使用另一个人的特征进行预测的时候，对特征进行一步转化，将其转化为被训练的人的声音特征，将声音特征进行人脸特征转化，获取人脸图像动画。2.根据权利要求1所述的一种基于动作及语音特征的人脸图像动画方法，其特征在于，图像驱动方式包括关键点检测，动作提取及图像生成三个步骤；关键点检测，分别输入目标人物和驱动视频的一帧图像，经过编码器后得到多个关键点和其对应的多个关键点附近的一阶导数信息；动作提取，输入上一个网络得到的关键点和一阶导数信息，得到目标人物到驱动视频的图像的变形场和一个经过下采样的降维源图片，经特征整合后，得到遮挡判定图与变形图；图像生成，将遮挡判定图与变形图以及目标人物的特征图一起输入，经过解码后得到动态图像视频。3.根据权利要求1所述的一种基于动作及语音特征的人脸图像动画方法，其特征在于，语音驱动方式的具体方法为：首先对源音频进行特征提取，在得到音频特征后，根据训练人的声音特征将该音频特征进行特征映射，从而找到该特征在训练人空间内的表达；在得到音频特征后，建立音频特征和嘴形特征的对应关系，得到嘴部特征后，将采样得到的眼睛眉毛以及头部姿势的参数进行整合，得到整个人脸的特征图；最后，将特征图进行图像生成，得到人脸图像动画。4.一种基于动作及语音特征的人脸图像动画系统，其特征在于，包括图像驱动模块及语音驱动模块；其中，图像驱动模块，用于输入一个人脸的谈话视频和另一个人的人脸，得到另一个人原本是静态图...

【专利技术属性】
技术研发人员：杨磊，
申请(专利权)人：北京中科深智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人