说话人视频生成方法、装置及电子设备制造方法及图纸

技术编号：39146593 阅读：29 留言：0更新日期：2023-10-23 14:57

本发明专利技术提供一种说话人视频生成方法、装置及电子设备，涉及人工智能技术领域，其中，所述方法包括：基于预训练的语音特征提取网络提取目标音频的语音特征；提取目标图像的深度信息，并对所述目标图像的像素进行稀疏采样处理，得到多个离散像素位置；基于所述深度信息对每个所述离散像素位置发出的光线进行空间点采样处理，得到每个离散像素位置对应的多个空间点位置；基于所述语音特征确定所述多个空间点位置对应的特征信息；对所述特征信息进行渲染处理，得到说话人视频。本发明专利技术实施例能够提高说话人视频的生成速度。提高说话人视频的生成速度。提高说话人视频的生成速度。

全部详细技术资料下载

【技术实现步骤摘要】
说话人视频生成方法、装置及电子设备

[0001]本专利技术涉及人工智能
，尤其涉及一种说话人视频生成方法、装置及电子设备。

技术介绍

[0002]说话人视频生成技术的目标是，基于一段音频和给定的人物形象生成对应人物的讲话视频，并使得说话人口型与音频匹配。相关技术中，基于NeRF的说话人视频生成方法在生成单张图像时，对图像上所有像素位置进行采样并发出光线，处理的数据量较大，导致说话人视频生成的速度较慢。

技术实现思路

[0003]本专利技术实施例提供一种说话人视频生成方法、装置及电子设备，以解决相关技术中说话人视频生成的速度较慢的问题。
[0004]为解决上述技术问题，本专利技术是这样实现的：
[0005]第一方面，本专利技术实施例提供了一种说话人视频生成方法，所述方法包括：
[0006]基于预训练的语音特征提取网络提取目标音频的语音特征；
[0007]提取目标图像的深度信息，并对所述目标图像的像素进行稀疏采样处理，得到多个离散像素位置；
[0008]基于所述深度信...

【技术保护点】

【技术特征摘要】
1.一种说话人视频生成方法，其特征在于，所述方法包括：基于预训练的语音特征提取网络提取目标音频的语音特征；提取目标图像的深度信息，并对所述目标图像的像素进行稀疏采样处理，得到多个离散像素位置；基于所述深度信息对每个所述离散像素位置发出的光线进行空间点采样处理，得到每个离散像素位置对应的多个空间点位置；基于所述语音特征确定所述多个空间点位置对应的特征信息；对所述特征信息进行渲染处理，得到说话人视频。2.根据权利要求1所述的方法，其特征在于，所述基于预训练的语音特征提取网络提取目标音频的语音特征之前，所述方法还包括：通过语音特征提取网络提取训练样本的语音特征；通过图像特征提取网络提取所述训练样本的图像特征；确定所述训练样本的语音特征和所述训练样本的图像特征的对比损失值；基于所述对比损失值对所述语音特征提取网络进行训练，得到预训练的语音特征提取网络。3.根据权利要求1所述的方法，其特征在于，所述预训练的语音特征提取网络通过以对齐音频和图像的口型为训练目标进行训练获得。4.根据权利要求1所述的方法，其特征在于，所述基于所述深度信息对每个所述离散像素位置发出的光线进行空间点采样处理，得到每个离散像素位置对应的多个空间点位置，包括：在所述深度信息指示的深度范围内，对每个所述离散像素位置发出的光线进行均匀3D空间点采样处理，得到每个离散像素位置对应的多个空间点位置。5.根据权利要求1所述的方法，其特征在于，所述基于所述语音特征确定所述多个空间点位置对应的特征信息，包括：将所述语音特征及所述每个离散像素位置对应的多个空间点位置输入全连接神经网络MLP进行计算，得到所述每个离散像素位置对应的多维特征值及体密度；其中，所述特征信息包括所述多维特征...

【专利技术属性】
技术研发人员：叶晓倩，王千，杜瞻，闫敏，柳欣，冯俊兰，邓超，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人