融合神经辐射场的音频驱动的说话人视频合成方法及系统技术方案

技术编号：38391633 阅读：16 留言：0更新日期：2023-08-05 17:44

本发明专利技术提供一种融合神经辐射场的音频驱动的说话人视频合成方法及系统，该方法包括获取环境中的视频数据集，任意选取一段时间的视频数据集并从中解析出视频序列和音频序列；从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征；构建一个音频条件隐式函数Fθ，将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练，计算出音频的颜色值和体密度；根据音频的颜色值和体密度，使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息，合成与音频信号相对应的高保真语音说话人视频。本发明专利技术借助于神经辐射场，不需要借助中间表示，直接合成与音频信号对应的高保真的说话人视频合成。号对应的高保真的说话人视频合成。号对应的高保真的说话人视频合成。

全部详细技术资料下载

【技术实现步骤摘要】
融合神经辐射场的音频驱动的说话人视频合成方法及系统

[0001]本专利技术涉及说话人视频合成
，尤其涉及一种融合神经辐射场的音频驱动的说话人视频合成方法及系统。

技术介绍

[0002]近年来，随着深度学习技术的不断发展，说话人视频合成技术取得了很大的进展。音频驱动的说话人视频合成技术是指利用语音作为输入，生成与该语音内容相匹配的人物视频。这种技术在虚拟人物、语音合成、视频会议等领域具有广泛的应用前景。音频驱动的说话人视频合成，其目的就是通过一段源音频驱动对应目标视频的生成，且目标视频的口型与输入的源音频保持一致。
[0003]目前常见的音频驱动的说话人视频合成方法有基于纯图像的方法和基于模型的方法。基于纯图像的方法：采用深度学习的方法提取各种人物图片的特征，建立一个神经网络模型以此应用于新的目标人物，使用目标人物的人脸控制给定面部的姿势和表情。该模型可以用于轻量级、复杂的视频和图像编辑。基于模型的说话人合成方法：在生成逼真的人脸图像时采用先验信息的方法，即这种方法的核心是统计模型，例如面部形状的3D Morphable models(三维形变模型)或者2D landmarks(关键点特征)，通过音频特征和3DMM模型的面部特征相结合，生成目标说话人的面部表情动画。
[0004]但是现有技术存在以下的不足：
[0005]1.基于纯图像的说话人合成方法：只能生成静止的人脸裁剪图像。无法生成具有背景和目标人物自然拍摄风格的全尺寸图像，且受到输入图片尺寸的大小，无法生成高分辨率的图像。
...

【技术保护点】

【技术特征摘要】
1.一种融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，包括：S1：获取环境中的视频数据集，任意选取一段时间的视频数据集并从中解析出视频序列和音频序列；S2：从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征；S3：构建一个音频条件隐式函数Fθ，将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练，计算出音频的颜色值和体密度，所述隐式函数Fθ用于表示动态神经辐射场；S4：根据音频的颜色值和体密度，使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息，合成与音频信号相对应的高保真语音说话人视频。2.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，还包括使用SyncNet scores模块计算视听同步得分，用来评估口型一致性，通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。3.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，从所述视频序列中提取人脸特征的方法为：采用人脸面部解析方法分割视频序列中的人脸部位并提取干净的背景，得到解析后的视频帧，对解析后的视频帧序列进行平移和旋转，将人脸特征转换到规范空间。4.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，从所述音频序列中提取音频特征的方法为：使用语音识别工具从所述音频序列中提取音频特征。5.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，所述音频条件隐式函数Fθ模型为：Fθ:(a,d,x)
→
(c,σ)其中a表示音频特征，d表示观看方向，x表示物体的3D位置，c表示颜色值，σ表示体密度。6.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法，其特征在于，根据音频条件隐式函数Fθ模型得出颜色值c和体密度σ，接着使用体渲染技术，将采样的体密度σ和颜色值c沿着每个像素投射的光线进行累积，计算图像渲染结果的输出颜色C，计算公式为：计算公式为：其中，r(t)＝o+td，o表示相机中心，d表示观看方向，tn表示近界，tf表示远界，θ表示角度，Π表示姿态参数，σ
θ(
·
)
和c
θ(
...

【专利技术属性】
技术研发人员：祝阅兵，冯思为，李永源，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人