一种数字人视频图像的生成方法及装置制造方法及图纸

技术编号：41876539 阅读：37 留言：0更新日期：2024-07-02 00:29

本发明专利技术公开了一种数字人视频图像的生成方法及装置，包括：获取第一请求，将第一请求中包括的第一语音转换为第一文本，根据第一文本确定第二文本对应的第二语音，将第二语音输入第一模型，得到包含数字人的第一视频图像；第一模型是基于第一损失函数以及第二损失函数，根据包含真人的第二视频图像进行训练得到的，第一损失函数用于确定第一视频图像中每个像素点的像素值与第二视频图像中对应像素点的像素值之间的第一差异度，以此提高数字人的清晰度；第二损失函数用于确定数字人的脸部区域中每个像素点的像素值与真人的脸部区域中每个像素点的像素值之间的第二差异度，以此提高数字人脸部区域的图像与音频之间的同步程度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种数字人视频图像的生成方法及装置。

技术介绍

1、随着虚拟现实技术的不断突破，“数字孪生”、“元宇宙”等概念逐渐进入公众视线。以真人为原型设计的三维数字人形象因其形象逼真、复用性强、使用场景广泛等特点，正逐渐被应用于网络中。

2、数字人是通过建模、动作捕捉、ai等科技手段，制作出具有人或类人的外貌特征和行为模式，并通过显示设备呈现出来的虚拟形象。然而，在用户与数字人实时交互的应用场景中，数字人视频图像的生成时延高，所生成的视频图像中的数字人不清晰，且数字人的图像与音频不同步等问题，影响用户与数字人的交互体验。

3、因此，如何提高用户与数字人的交互体验是目前需要解决的技术问题。

技术实现思路

1、本专利技术实施例提供一种数字人视频图像的生成方法及装置，用于降低数字人视频图像的生成时延，提高数字人的质量以及数字人的图像与音频之间的同步程度，增加用户与数字人的交互体验。

2、第一方面，本专利技术实施例提供一种数字人视频图像的生成...

【技术保护点】

1.一种数字人视频图像的生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述脸部区域包括以下一项或多项：眉毛区域，眼睛区域，耳朵区域，鼻子区域，口部区域；

3.如权利要求1所述的方法，其特征在于，所述第二视频图像被设置为第一分辨率，所述第一分辨率与所述第一视频图像的分辨率关联；

4.如权利要求3所述的方法，其特征在于，所述第二视频图像被设置为第一fps，被设置为第一fps的第二视频图像中相邻图像帧的时间间隔与所述第一音频采样率与第一音频采样次数的比值相同，所述第一音频采样次数为所述第一音频数据中最小存储单位的区块对应的音频采样次数...

【技术特征摘要】

1.一种数字人视频图像的生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述脸部区域包括以下一项或多项：眉毛区域，眼睛区域，耳朵区域，鼻子区域，口部区域；

3.如权利要求1所述的方法，其特征在于，所述第二视频图像被设置为第一分辨率，所述第一分辨率与所述第一视频图像的分辨率关联；

4.如权利要求3所述的方法，其特征在于，所述第二视频图像被设置为第一fps，被设置为第一fps的第二视频图像中相邻图像帧的时间间隔与所述第一音频采样率与第一音频采样次数的比值相同，所述第一音频采样次数为所述第一音频数据中最小存储单位的区块对应的音频采样次数。

5.如权利要求3所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：谢奔，陈炜，朱亮，孙世杰，
申请(专利权)人：南京领行科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人