高分辨率视频的音频驱动人像动画生成系统及生成方法技术方案

技术编号:39668817 阅读:9 留言:0更新日期:2023-12-11 18:33
本发明专利技术涉及高分辨率视频的音频驱动人像动画生成系统,包括:获取模块,用于获取

【技术实现步骤摘要】
高分辨率视频的音频驱动人像动画生成系统及生成方法


[0001]本专利技术涉及人工智能虚拟人脸应用
,具体为高分辨率视频的音频驱动人像动画生成系统及生成方法,

技术介绍

[0002]语音驱动人脸动画生成旨在根据输入的音频信息和人脸形象生成具有流畅

自然

唇音同步的人脸动画

它在虚拟主播

虚拟客服

在线教育

电影特效

游戏娱乐等众多领域都有着广阔的应用前景

一个高质量

高真实感

唇音同步的人脸动画可以很好地增强使用者的认同感与体验感

[0003]近年来,随着深度学习技术的不断发展,各种卷积神经网络

对抗生成网络等模型被提出并得到广泛应用,使得人脸动画生成技术开始有了新的研究方向,采用学习机制使训练后的人脸模型具有良好的口型表现效果

[0004]音频驱动人脸动画生成技术研究现状,仍存在着唇音同步效果一般

人脸动画图像帧质量有待提高;因此,提供高分辨率视频的音频驱动人像动画生成系统及生成方法


技术实现思路

[0005]本专利技术的目的在于克服现有的缺陷而提供的高分辨率视频的音频驱动人像动画生成系统及生成方法,实现了在高质量的人脸动画上具有良好的唇部同步效果

[0006]实现上述目的的技术方案是:<br/>[0007]本专利技术之一的高分辨率视频的音频驱动人像动画生成系统,包括:
[0008]获取模块,用于获取
MP4
高分辨率视频文件和希望用于驱动的
WAV
音频文件;
[0009]管理模块,用于导入将作为参考的
MP4
高分辨率视频文件和希望用于驱动的
WAV
音频文件,将视频文件发送至去噪模块,将音频文件发送至动画模块;
[0010]所述去噪模块,用于将视频按每秒
25
帧进行重采样,进一步对每一帧图片进行去噪处理,获取平滑的面部特征系数,生成
CSV
文件及帧数文件;
[0011]所述动画模块,用于随机在帧数文件中选择5帧作为参考,根据输入音频自动生成配音动画

[0012]优选的,所述获取模块包括:
[0013]视频获取单元,用于录制人像的面部特征;
[0014]音频获取单元,用于录制希望用于驱动的
WAV
音频

[0015]优选的,所述视频获取单元在录制视频时,人像的唇部需要做出任意动作

[0016]优选的,所述动画模块中,卷积神经网络首先提取驱动音频的特征以及人像面部特征;依据驱动音频特征,为每一帧生成符合该帧的嘴部运动系数,运动系数结合人像面部特征模拟人物说话

[0017]本专利技术之二放入高分辨率视频的音频驱动人像动画生成方法,包括:
[0018]步骤
S1
,获取
MP4
高分辨率视频文件和希望用于驱动的
WAV
音频文件;
[0019]步骤
S2
,导入
MP4
高分辨率视频文件和希望用于驱动的
WAV
音频文件;
[0020]步骤
S3
,对视频按每秒
25
帧进行重采样,进一步对每一帧图片进行去噪处理,获取平滑的面部特征系数,生成
CSV
文件;
[0021]步骤
S4
,随机在帧数文件中选择5帧作为参考,并根据输入音频自动生成配音动画

[0022]优选的,所述步骤
S4
中,通过接收到的音频特征以及参考图像的
CSV
图像,通过卷积神经网络对音频到人脸生成过程进行训练,并通过反向传播优化模型参数,获得唇音同步的人脸动画图像

[0023]本专利技术的有益效果是:本专利技术中,卷积神经网络首先提取驱动音频的特征以及人像面部特征;依据驱动音频特征,为每一帧生成符合该帧的嘴部运动系数,运动系数结合人像面部特征模拟人物说话,起到了配音效果,也提高人脸动画图像的帧质量;进而实现了在高质量的人脸动画上具有良好的唇部同步效果

附图说明
[0024]图1是本专利技术高分辨率视频的音频驱动人像动画生成系统的模块图;
[0025]图2是本专利技术中获取模块的具体模块图;
[0026]图3是本专利技术高分辨率视频的音频驱动人像动画生成方法的流程图

[0027]图中:
1、
获取模块;
2、
管理模块;
3、
去噪模块;
4、
动画模块;
11、
视频获取单元;
12、
音频获取单元

具体实施方式
[0028]下面将结合附图对本专利技术的技术方案进行清楚

完整地描述

在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位

以特定的方位构造和操作,因此不能理解为对本专利技术的限制

此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相正对地重要性

[0029]下面将结合附图对本专利技术作进一步说明

[0030]如图1所示,高分辨率视频的音频驱动人像动画生成系统,包括:
[0031]获取模块1,用于获取
MP4(
音频格式
)
高分辨率视频文件和希望用于驱动的
WAV(
声音波形文件
)
音频文件;如图2所示,获取模块1包括:视频获取单元
11
,用于录制人像的面部特征;音频获取单元
12
,用于录制希望用于驱动的
WAV
音频

[0032]实施例中,视频获取单元
11
在录制视频时,人像的唇部需要做出任意动作

[0033]管理模块2,用于导入将作为参考的
MP4
高分辨率视频文件和希望用于驱动的
WAV
音频文件,将视频文件发送至去噪模块3,将音频文件发送至动画模块
4。
[0034]去噪模块3,用于将视频按每秒
25
帧进行重采样,进一步对每一帧图片进行去噪处理,获取平滑的面部特征系数,生成
CSV
文件及帧数文件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
高分辨率视频的音频驱动人像动画生成系统,其特征在于,包括:获取模块,用于获取
MP4
高分辨率视频文件和希望用于驱动的
WAV
音频文件;管理模块,用于导入将作为参考的
MP4
高分辨率视频文件和希望用于驱动的
WAV
音频文件,将视频文件发送至去噪模块,将音频文件发送至动画模块;所述去噪模块,用于将视频按每秒
25
帧进行重采样,进一步对每一帧图片进行去噪处理,获取平滑的面部特征系数,生成
CSV
文件及帧数文件;所述动画模块,用于随机在帧数文件中选择5帧作为参考,根据输入音频自动生成配音动画
。2.
根据权利要求1所述的高分辨率视频的音频驱动人像动画生成系统,其特征在于,所述获取模块包括:视频获取单元,用于录制人像的面部特征;音频获取单元,用于录制希望用于驱动的
WAV
音频
。3.
根据权利要求2所述的一种基于高分辨率视频的音频驱动人像动画生成系统,其特征在于,所述视频获取单元在录制视频时,人像的唇部需要做出任意动作
。4.
根据权利要求1所述的高分辨率视频的音频驱动人像动画生成系统,其特征在于,所述动画模块中,卷积神经网络首...

【专利技术属性】
技术研发人员:李少渤李鹏林木森
申请(专利权)人:甜新科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1