音频驱动面部运动生成的方法、系统、终端及存储介质技术方案

技术编号：41217550 阅读：25 留言：0更新日期：2024-05-09 23:38

本发明专利技术公开了音频驱动面部运动生成的方法、系统、终端及存储介质，涉及计算机视觉技术领域。方法通过获取音频数据和包含人像的视频数据；根据视频数据提取每帧图像的目标三维面部系数，针对每帧图像，根据该帧图像和相邻的若干帧图像提取该帧图像的目标三维面部系数；根据音频数据和视频数据的目标三维面部系数生成视频数据中人像的面部运动，得到目标视频数据。本发明专利技术可以稳定提取视频中人像的三维面部系数，通过三维面部系数准确地反映人像的细节信息与立体信息，并将用于驱动的音频数据和视频数据的三维面部系数相结合来转换视频中人像的口型和面部运动，使得视频中人像讲话自然且正确性较高，最终得到与音频数据高度对齐的目标视频数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，尤其涉及的是音频驱动面部运动生成的方法、系统、终端及存储介质。

技术介绍

1、语音驱动的人像视频翻译方法可以根据指定语种的翻译语音改变视频中说话者的口型。然而目前存在的方法聚焦于说话者口型的改变，忽略了人像的三维信息以及人脸的细节信息，导致翻译后生成的视频画面质量较低，存在画面拉伸不自然、局部模糊、丢失细节等问题。

2、因此，现有技术还有待改进和发展。

技术实现思路

1、本专利技术要解决的技术问题在于，针对现有技术的上述缺陷，提供音频驱动面部运动生成的方法、系统、终端及存储介质，旨在解决现有技术中语音驱动的人像视频翻译方法生成的视频画面质量较低，存在画面拉伸不自然、局部模糊、丢失细节的问题。

2、本专利技术解决问题所采用的技术方案如下：

3、第一方面，本专利技术实施例提供一种音频驱动面部运动生成的方法，所述方法包括：

4、获取音频数据和包含人像的视频数据；

5、根据所述视频数据提取每帧图像的目标三维面部系...

【技术保护点】

1.一种音频驱动面部运动生成的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的音频驱动面部运动生成的方法，其特征在于，所述根据该帧图像和相邻的若干帧图像提取该帧图像的目标三维面部系数，包括：

3.根据权利要求2所述的音频驱动面部运动生成的方法，其特征在于，所述根据所述人脸检测信息提取该帧图像的目标三维面部系数，包括：

4.根据权利要求3所述的音频驱动面部运动生成的方法，其特征在于，所述根据所述标准化图像提取该帧图像的目标三维面部系数，包括：

5.根据权利要求1所述的音频驱动面部运动生成的方法，其特征在于，所述根据所述音频数据和所述...

【技术特征摘要】

1.一种音频驱动面部运动生成的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的音频驱动面部运动生成的方法，其特征在于，所述根据该帧图像和相邻的若干帧图像提取该帧图像的目标三维面部系数，包括：

3.根据权利要求2所述的音频驱动面部运动生成的方法，其特征在于，所述根据所述人脸检测信息提取该帧图像的目标三维面部系数，包括：

4.根据权利要求3所述的音频驱动面部运动生成的方法，其特征在于，所述根据所述标准化图像提取该帧图像的目标三维面部系数，包括：

5.根据权利要求1所述的音频驱动面部运动生成的方法，其特征在于，所述根据所述音频数据和所述视频数据的目标三维面部系数生成所述视频数据中人像的面部运动，得到目标视频数据，包括：

6.根据权利要求5所述的音频驱动面部运动生成的方法，其特征在于，所述根据所述视频数据的目标三维面部系数生成所述视频数据的三维面部网格，包括：

7.根据权利要求5所述的音频驱动面部运动生成的方法，其特征在于，所述根据所述视频数据的三维面部网格和所述音频数据生成所述视频数据的预测三维面部网格，包括：

8.根据权利要求7所...

【专利技术属性】
技术研发人员：刘云飞，林丽健，祝叶，李昱，余飞，周昌印，幺宝刚，
申请(专利权)人：粤港澳大湾区数字经济研究院福田，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人