当前位置: 首页 > 专利查询>苏州大学专利>正文

融合神经辐射场的音频驱动的说话人视频合成方法及系统技术方案

技术编号:38391633 阅读:16 留言:0更新日期:2023-08-05 17:44
本发明专利技术提供一种融合神经辐射场的音频驱动的说话人视频合成方法及系统,该方法包括获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度;根据音频的颜色值和体密度,使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频。本发明专利技术借助于神经辐射场,不需要借助中间表示,直接合成与音频信号对应的高保真的说话人视频合成。号对应的高保真的说话人视频合成。号对应的高保真的说话人视频合成。

【技术实现步骤摘要】
融合神经辐射场的音频驱动的说话人视频合成方法及系统


[0001]本专利技术涉及说话人视频合成
,尤其涉及一种融合神经辐射场的音频驱动的说话人视频合成方法及系统。

技术介绍

[0002]近年来,随着深度学习技术的不断发展,说话人视频合成技术取得了很大的进展。音频驱动的说话人视频合成技术是指利用语音作为输入,生成与该语音内容相匹配的人物视频。这种技术在虚拟人物、语音合成、视频会议等领域具有广泛的应用前景。音频驱动的说话人视频合成,其目的就是通过一段源音频驱动对应目标视频的生成,且目标视频的口型与输入的源音频保持一致。
[0003]目前常见的音频驱动的说话人视频合成方法有基于纯图像的方法和基于模型的方法。基于纯图像的方法:采用深度学习的方法提取各种人物图片的特征,建立一个神经网络模型以此应用于新的目标人物,使用目标人物的人脸控制给定面部的姿势和表情。该模型可以用于轻量级、复杂的视频和图像编辑。基于模型的说话人合成方法:在生成逼真的人脸图像时采用先验信息的方法,即这种方法的核心是统计模型,例如面部形状的3D Morphable models(三维形变模型)或者2D landmarks(关键点特征),通过音频特征和3DMM模型的面部特征相结合,生成目标说话人的面部表情动画。
[0004]但是现有技术存在以下的不足:
[0005]1.基于纯图像的说话人合成方法:只能生成静止的人脸裁剪图像。无法生成具有背景和目标人物自然拍摄风格的全尺寸图像,且受到输入图片尺寸的大小,无法生成高分辨率的图像。
[0006]2.基于模型的说话人合成方法:例如3DMM依赖于中间表示(即中间过程所生成的三维参数),以弥合音频输入和视频输出之间的差距,由于中间表示造成的信息损失,可能会导致原始音频信号与学习到的人脸形变之间的语义不匹配,在表示人脸的形状和纹理方面具有一定的限制,例如无法很好地处理头发、眼睛、嘴唇等细节区域,限制了模型的精度和逼真度。3DMM模型的训练需要大量的高质量的面部数据,但是很难获得具有足够多样性的面部数据集,这限制了模型的泛化能力和适应性。

技术实现思路

[0007]为此,本专利技术实施例提供了一种融合神经辐射场的音频驱动的说话人视频合成方法及系统,用于解决现有技术中只能生成静止的人脸裁剪图像以及依赖于中间表示导致原始音频信号与学习到的人脸形变之间的语义不匹配的问题。
[0008]为了解决上述问题,本专利技术实施例提供一种融合神经辐射场的音频驱动的说话人视频合成方法,该方法包括:
[0009]S1:获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;
[0010]S2:从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;
[0011]S3:构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度,所述隐式函数Fθ用于表示动态神经辐射场;
[0012]S4:根据音频的颜色值和体密度,使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频。
[0013]优选地,还包括使用SyncNet scores模块计算视听同步得分,用来评估口型一致性,通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成
[0014]优选地,从所述视频序列中提取人脸特征的方法为:
[0015]采用人脸面部解析方法分割视频序列中的人脸部位并提取干净的背景,得到解析后的视频帧,对解析后的视频帧序列进行平移和旋转,将人脸特征转换到规范空间。
[0016]优选地,从所述音频序列中提取音频特征的方法为:
[0017]使用语音识别工具从所述音频序列中提取音频特征。
[0018]优选地,所述音频条件隐式函数Fθ模型为:
[0019]Fθ:(a,d,x)

(c,σ)
[0020]其中a表示音频特征,d表示观看方向,x表示物体的3D位置,c表示颜色值,σ表示体密度。
[0021]优选地,根据音频条件隐式函数Fθ模型得出颜色值c和体密度σ,接着使用体渲染技术,将采样的体密度σ和颜色值c沿着每个像素投射的光线进行累积,计算图像渲染结果的输出颜色C,计算公式为:
[0022][0023][0024]其中,r(t)=o+td,o表示相机中心,d表示观看方向,tn表示近界,tf表示远界,θ表示角度,Π表示姿态参数,σ
θ(
·
)
和c
θ(
·
)
表示隐式函数Fθ模型的输出,T(t)为从tn到t沿光线的累计透射率。
[0025]优选地,使用L2损失函数,优化渲染出的图像和训练真实图像之间的误差,表示如下:
[0026]其中,I
r
表示渲染出的图像,I
r
∈R
W
×
H
×3,I
g
表示训练的真实图片,I
g
∈R
W
×
H
×3,W表示宽度,H表示高度,a表示音频特征,Π表示姿态参数,θ表示角度,w表示宽度,h表示高度。
[0027]本专利技术实施例还提供了一种融合神经辐射场的音频驱动的说话人视频合成系统,该系统包括:
[0028]采集模块,用于获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;
[0029]特征提取模块,用于从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;
[0030]计算模块,用于构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参
数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度,所述隐式函数Fθ用于表示动态神经辐射场;
[0031]合成模块,用于使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频;
[0032]评估模块,使用SyncNet scores模块计算视听同步得分,用来评估口型一致性,通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。
[0033]本专利技术实施例还提供了一种电子装置,其特征在于,包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。
[0034]本专利技术实施例还提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行上述任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。
[0035]从以上技术方案可以看出,本专利技术申请具有以下优点:
[0036]1.相较于基于纯本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,包括:S1:获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;S2:从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;S3:构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度,所述隐式函数Fθ用于表示动态神经辐射场;S4:根据音频的颜色值和体密度,使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频。2.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,还包括使用SyncNet scores模块计算视听同步得分,用来评估口型一致性,通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。3.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,从所述视频序列中提取人脸特征的方法为:采用人脸面部解析方法分割视频序列中的人脸部位并提取干净的背景,得到解析后的视频帧,对解析后的视频帧序列进行平移和旋转,将人脸特征转换到规范空间。4.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,从所述音频序列中提取音频特征的方法为:使用语音识别工具从所述音频序列中提取音频特征。5.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,所述音频条件隐式函数Fθ模型为:Fθ:(a,d,x)

(c,σ)其中a表示音频特征,d表示观看方向,x表示物体的3D位置,c表示颜色值,σ表示体密度。6.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,根据音频条件隐式函数Fθ模型得出颜色值c和体密度σ,接着使用体渲染技术,将采样的体密度σ和颜色值c沿着每个像素投射的光线进行累积,计算图像渲染结果的输出颜色C,计算公式为:计算公式为:其中,r(t)=o+td,o表示相机中心,d表示观看方向,tn表示近界,tf表示远界,θ表示角度,Π表示姿态参数,σ
θ(
·
)
和c
θ(
...

【专利技术属性】
技术研发人员:祝阅兵冯思为李永源
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1