高分辨率视频的音频驱动人像动画生成系统及生成方法技术方案

技术编号：39668817 阅读：9 留言：0更新日期：2023-12-11 18:33

本发明专利技术涉及高分辨率视频的音频驱动人像动画生成系统，包括：获取模块，用于获取

全部详细技术资料下载

【技术实现步骤摘要】
高分辨率视频的音频驱动人像动画生成系统及生成方法

[0001]本专利技术涉及人工智能虚拟人脸应用
，具体为高分辨率视频的音频驱动人像动画生成系统及生成方法，

技术介绍

[0002]语音驱动人脸动画生成旨在根据输入的音频信息和人脸形象生成具有流畅
、
自然
、
唇音同步的人脸动画
。
它在虚拟主播
、
虚拟客服
、
在线教育
、
电影特效
、
游戏娱乐等众多领域都有着广阔的应用前景
。
一个高质量
、
高真实感
、
唇音同步的人脸动画可以很好地增强使用者的认同感与体验感
。
[0003]近年来，随着深度学习技术的不断发展，各种卷积神经网络
、
对抗生成网络等模型被提出并得到广泛应用，使得人脸动画生成技术开始有了新的研究方向，采用学习机制使训练后的人脸模型具有良好的口型表现效果
。
[0004]音频驱动人脸动画生成技术研究现状，仍存在着唇音同步效果一般
、
人脸动画图像帧质量有待提高；因此，提供高分辨率视频的音频驱动人像动画生成系统及生成方法
。

技术实现思路

[0005]本专利技术的目的在于克服现有的缺陷而提供的高分辨率视频的音频驱动人像动画生成系统及生成方法，实现了在高质量的人脸动画上具有良好的唇部同步效果
。
[0006]实现上述目的的技术方案是：<...

【技术保护点】

【技术特征摘要】
1.
高分辨率视频的音频驱动人像动画生成系统，其特征在于，包括：获取模块，用于获取
MP4
高分辨率视频文件和希望用于驱动的
WAV
音频文件；管理模块，用于导入将作为参考的
MP4
高分辨率视频文件和希望用于驱动的
WAV
音频文件，将视频文件发送至去噪模块，将音频文件发送至动画模块；所述去噪模块，用于将视频按每秒
25
帧进行重采样，进一步对每一帧图片进行去噪处理，获取平滑的面部特征系数，生成
CSV
文件及帧数文件；所述动画模块，用于随机在帧数文件中选择5帧作为参考，根据输入音频自动生成配音动画
。2.
根据权利要求1所述的高分辨率视频的音频驱动人像动画生成系统，其特征在于，所述获取模块包括：视频获取单元，用于录制人像的面部特征；音频获取单元，用于录制希望用于驱动的
WAV
音频
。3.
根据权利要求2所述的一种基于高分辨率视频的音频驱动人像动画生成系统，其特征在于，所述视频获取单元在录制视频时，人像的唇部需要做出任意动作
。4.
根据权利要求1所述的高分辨率视频的音频驱动人像动画生成系统，其特征在于，所述动画模块中，卷积神经网络首...

【专利技术属性】
技术研发人员：李少渤，李鹏，林木森，
申请(专利权)人：甜新科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人