文本驱动数字人的方法及装置制造方法及图纸

技术编号：40818947 阅读：6 留言：0更新日期：2024-03-28 19:37

本申请提供了一种文本驱动数字人的方法及装置，其中，该方法包括：构建说话文本到说话音频的隐式空间的嵌入层；基于所述嵌入层，通过在音频生成视频的训练结果上再次训练，建立起所述音频和所述视频的映射关系；基于所述映射关系，来驱动数字人。本申请解决了现有技术中通过TTS进行音频合成导致生成能说话的数字人速度慢、精准度有损失的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数字人驱动，具体而言，涉及一种文本驱动数字人的方法及装置。

技术介绍

1、在当前的数字人方法中，当生成说话数字人的唇形相关视频时，通常需要经过tts(文本转语音)进行音频合成。这一过程存在一些局限性，其中速度慢且精准度有所损失是主要问题之一。

2、首先，通过tts合成音频的过程通常需要耗费相当的时间，这对于实时或大规模应用而言是一个挑战。用户可能需要等待较长时间才能获得最终的数字人说话视频。其次，精准度方面存在一些问题，因为tts系统在将文本转换为语音时可能会导致一些发音或语调的不准确性。这可能影响最终生成的数字人说话视频的真实感和质量。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本专利技术实施例提供了一种文本驱动数字人的方法及装置，以至少解决现有技术中通过tts进行音频合成导致生成能说话的数字人速度慢、精准度有损失的技术问题。

2、根据本专利技术实施例的一个方面，提供了一种文本驱动数字人的方法，包括：构建说话文本到说话音频的隐式空间的嵌入层；基于所述嵌入层，通过在音频生成视频的训练结果上再次训练，建立起所述音频和所述视频的映射关系；基于所述映射关系，来驱动数字人。

3、根据本专利技术实施例的另一方面，还提供了一种文本驱动数字人的装置，包括：构建模块，被配置为构建说话文本到说话音频的隐式空间的嵌入层；建立模块，被配置为基于所述嵌入层，通过在音频生成视频的训练结果上再次训练，建立起所述音频和所述视频的

4、在本专利技术实施例中，构建说话文本到说话音频的隐式空间的嵌入层；基于所述嵌入层，通过在音频生成视频的训练结果上再次训练，建立起所述音频和所述视频的映射关系；基于所述映射关系，来驱动数字人。通过上述步骤，解决了现有技术中通过tts进行音频合成导致生成能说话的数字人速度慢、精准度有损失的技术问题。

本文档来自技高网...

【技术保护点】

1.一种文本驱动数字人的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，构建说话文本到说话音频的隐式空间的嵌入层，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述说话文本和所述音频特征，构建所述说话文本到所述说话音频的隐式空间的嵌入层，包括：

4.根据权利要求2所述的方法，其特征在于，通过在音频生成视频的训练结果上再次训练，建立起所述音频和所述视频的映射关系，包括：

5.一种文本驱动数字人的装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述构建模块还被配置为：

7.根据权利要求6所述的装置，其特征在于，所述构建模块还被配置为：

8.根据权利要求6所述的装置，其特征在于，所述建立模块还被配置为：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有程序，其特征在于，在所述程序运行时，使得计算机执行如权利要求1至4中任一项所述的方法。

【技术特征摘要】

1.一种文本驱动数字人的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，构建说话文本到说话音频的隐式空间的嵌入层，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述说话文本和所述音频特征，构建所述说话文本到所述说话音频的隐式空间的嵌入层，包括：

4.根据权利要求2所述的方法，其特征在于，通过在音频生成视频的训练结果上再次训练，建立起所述音频和所述视频的映射关系，包括：

5.一种文本驱动...

【专利技术属性】
技术研发人员：蒋正浩，张鹏起，吴建伟，
申请(专利权)人：世优北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人