一种基于动作及语音特征的人脸图像动画方法和系统技术方案

技术编号:33352651 阅读:18 留言:0更新日期:2022-05-08 10:01
本发明专利技术公开了一种基于动作及语音特征的人脸图像动画方法和系统,包括:图像驱动方式及语音驱动方式;其中图像驱动方式为:输入一个人脸的谈话视频和另一个人的人脸,得到另一个人原本是静态图片的动态图像视频;语音驱动方式为:针对某个特定人物进行训练,当使用另一个人的特征进行预测的时候,对特征进行一步转化,将其转化为被训练的人的声音特征,将声音特征进行人脸特征转化,获取人脸图像动画。本发明专利技术能够实现视频与音频的两种驱动方式对目标人物进行驱动,驱动方式多样,可以满足多种需求。种需求。种需求。

【技术实现步骤摘要】
一种基于动作及语音特征的人脸图像动画方法和系统


[0001]本专利技术属于图像动画生成
,更具体的说是涉及一种基于动作及语音特征的人脸图像动画方法和系统。

技术介绍

[0002]图像动画在影视制作,摄影,电商等领域都有着比较广泛的应用。具体来说,给定一个人物形象,我们可以通过某种驱动方式使这个人“动起来”。这个过程有很多种实现的方式,如果从图像数据中获取特征,我们需要将图像特征转化为人脸或者动作的特征,并将这些特征加在目标人脸上;如果从语音数据中获取特征,我们可以将这些语音特征转化为目标人脸的面部特征,从而通过这些特征生成目标人物的人脸。
[0003]图像领域的三维的方法,常规的做法是对目标物体进行三维的建模,然后输入一系列动作来驱动这个三维模型,通过在虚拟空间内设置相机来得到目标物体的动作视频。这种方法首先需要对物体进行三维建模,需要大量物体的先验信息来约束模型,通过计算机的图形技术来获取最后的结果,其中的建模,投影,渲染等流程需要耗费比较多的计算机资源。对于二维的方法,近些年随着人工智能技术的发展,涌现出一大批深度学习的模型来完成图像生成的任务,其中比较有代表性的有生成对抗网络(Generative Adversarial Networks),变分自编码器(Variational Auto

Encoders)等等。但是这些方法一般来说需要做大量的提前标注,同时无法将整个流程推广到相同类别的任意物体上。为了解决标注所需的人力资源,同时可以将流程应用到相同类别的任意物体上,Siarohin等人提出了第一个基于物体类别就可实现的图像动画方法Monkey

Net,通过检测目标物体和驱动视频关键点的运动轨迹来生成目标物体动画。这个方法仅仅使用了0阶的映射函数的信息,导致生成的图像效果不够好。随后提出的First

Order

Motion

Model使用了动作轨迹的一阶导数的信息,但是原项目为了降低训练的消耗和提高数据量,仅仅使用了比较低的分辨率的训练数据,导致生成的结果分辨率不够好。
[0004]因此,如何提供一种基于动作及语音特征的人脸图像动画方法和系统成为了本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术能够实现视频与音频的两种驱动方式对目标人物进行驱动,驱动方式多样,可以满足多种需求。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一种基于动作及语音特征的人脸图像动画方法,包括:图像驱动方式及语音驱动方式;其中图像驱动方式为:输入一个人脸的谈话视频和另一个人的人脸,得到另一个人原本是静态图片的动态图像视频;语音驱动方式为:针对某个特定人物进行训练,当使用另一个人的特征进行预测的时候,对特征进行一步转化,将其转化为被训练的人的声音特征,将声音特征进行人脸特征转化,获取人脸图像动画。
[0008]进一步的,图像驱动方式包括关键点检测,动作提取及图像生成三个步骤;
[0009]关键点检测,分别输入目标人物和驱动视频的一帧图像,经过编码器后得到多个关键点和其对应的多个关键点附近的一阶导数信息;
[0010]动作提取,输入上一个网络得到的关键点和一阶导数信息,得到目标人物到驱动视频的图像的变形场和一个经过下采样的降维源图片,经特征整合后,得到遮挡判定图与变形图;
[0011]图像生成,将遮挡判定图与变形图以及目标人物的特征图一起输入,经过解码后得到动态图像视频。
[0012]进一步的,语音驱动方式的具体方法为:首先对源音频进行特征提取,在得到音频特征后,根据训练人的声音特征将该音频特征进行特征映射,从而找到该特征在训练人空间内的表达;在得到音频特征后,建立音频特征和嘴形特征的对应关系,得到嘴部特征后,将采样得到的眼睛眉毛以及头部姿势的参数进行整合,得到整个人脸的特征图;最后,将特征图进行图像生成,得到人脸图像动画。
[0013]一种基于动作及语音特征的人脸图像动画系统,包括图像驱动模块及语音驱动模块;其中,
[0014]图像驱动模块,用于输入一个人脸的谈话视频和另一个人的人脸,得到另一个人原本是静态图片的动态图像视频;
[0015]语音驱动模块,针对某个特定人物进行训练,当使用另一个人的特征进行预测的时候,对特征进行一步转化,将其转化为被训练的人的声音特征,将声音特征进行人脸特征转化,获取人脸图像动画。
[0016]进一步的,图像驱动模块包括关键点检测单元,动作提取单元及图像生成单元;
[0017]关键点检测单元,用于分别输入目标人物和驱动视频的一帧图像,经过编码器后得到多个关键点和其对应的多个关键点附近的一阶导数信息;
[0018]动作提取单元,用于输入上一个网络得到的关键点和一阶导数信息,得到目标人物到驱动视频的图像的变形场和一个经过下采样的降维源图片,经特征整合后,得到遮挡判定图与变形图;
[0019]图像生成单元,将遮挡判定图与变形图以及目标人物的特征图一起输入,经过解码后得到动态图像视频。
[0020]进一步的,语音驱动模块包括:目标音频特征提取单元、特征整合单元以及图像生成单元;其中,
[0021]目标音频特征提取单元,用于对源音频进行特征提取,在得到音频特征后,根据训练人的声音特征将该音频特征进行特征映射,从而找到该特征在训练人空间内的表达;
[0022]特征整合单元,用于在得到音频特征后,建立音频特征和嘴形特征的对应关系,得到嘴部特征后,将采样得到的眼睛眉毛以及头部姿势的参数进行整合,得到整个人脸的特征图;
[0023]图像生成单元,用于将特征图进行图像生成,得到人脸图像动画。
[0024]进一步的,还包括云端服务器,允许用户个人上传人物形象,音频以及动作视频给云端服务器,云端服务器在得到请求后自动计算对应的结果返回给用户。
[0025]本专利技术的有益效果在于:
[0026]1、本专利技术提供了视频与音频的两种驱动方式对目标人物进行驱动,驱动方式多样,可以满足多种需求。网络的分辨率精度达到512
×
512,可以得到比较高清的人脸视频结果。
[0027]2、本专利技术通过云端服务方案,可以实现用户自己上传形象,音频和驱动视频,通过远程计算的方法得到目标视频,避免了没有显卡资源的问题。
附图说明
[0028]为了更清楚地说明本实用新式实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本实用新式的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0029]图1为本专利技术关键点检测的方法流程图。
[0030]图2为本专利技术动作提取的方法流程图。
[0031]图3为本专利技术图像生成的方法流程图。
[0032]图4为本专利技术语音驱本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动作及语音特征的人脸图像动画方法,其特征在于,包括:图像驱动方式及语音驱动方式;其中图像驱动方式为:输入一个人脸的谈话视频和另一个人的人脸,得到另一个人原本是静态图片的动态图像视频;语音驱动方式为:针对某个特定人物进行训练,当使用另一个人的特征进行预测的时候,对特征进行一步转化,将其转化为被训练的人的声音特征,将声音特征进行人脸特征转化,获取人脸图像动画。2.根据权利要求1所述的一种基于动作及语音特征的人脸图像动画方法,其特征在于,图像驱动方式包括关键点检测,动作提取及图像生成三个步骤;关键点检测,分别输入目标人物和驱动视频的一帧图像,经过编码器后得到多个关键点和其对应的多个关键点附近的一阶导数信息;动作提取,输入上一个网络得到的关键点和一阶导数信息,得到目标人物到驱动视频的图像的变形场和一个经过下采样的降维源图片,经特征整合后,得到遮挡判定图与变形图;图像生成,将遮挡判定图与变形图以及目标人物的特征图一起输入,经过解码后得到动态图像视频。3.根据权利要求1所述的一种基于动作及语音特征的人脸图像动画方法,其特征在于,语音驱动方式的具体方法为:首先对源音频进行特征提取,在得到音频特征后,根据训练人的声音特征将该音频特征进行特征映射,从而找到该特征在训练人空间内的表达;在得到音频特征后,建立音频特征和嘴形特征的对应关系,得到嘴部特征后,将采样得到的眼睛眉毛以及头部姿势的参数进行整合,得到整个人脸的特征图;最后,将特征图进行图像生成,得到人脸图像动画。4.一种基于动作及语音特征的人脸图像动画系统,其特征在于,包括图像驱动模块及语音驱动模块;其中,图像驱动模块,用于输入一个人脸的谈话视频和另一个人的人脸,得到另一个人原本是静态图...

【专利技术属性】
技术研发人员:杨磊
申请(专利权)人:北京中科深智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1