System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数字人驱动,具体而言,涉及一种文本驱动数字人的方法及装置。
技术介绍
1、在当前的数字人方法中,当生成说话数字人的唇形相关视频时,通常需要经过tts(文本转语音)进行音频合成。这一过程存在一些局限性,其中速度慢且精准度有所损失是主要问题之一。
2、首先,通过tts合成音频的过程通常需要耗费相当的时间,这对于实时或大规模应用而言是一个挑战。用户可能需要等待较长时间才能获得最终的数字人说话视频。其次,精准度方面存在一些问题,因为tts系统在将文本转换为语音时可能会导致一些发音或语调的不准确性。这可能影响最终生成的数字人说话视频的真实感和质量。
3、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本专利技术实施例提供了一种文本驱动数字人的方法及装置,以至少解决现有技术中通过tts进行音频合成导致生成能说话的数字人速度慢、精准度有损失的技术问题。
2、根据本专利技术实施例的一个方面,提供了一种文本驱动数字人的方法,包括:构建说话文本到说话音频的隐式空间的嵌入层;基于所述嵌入层,通过在音频生成视频的训练结果上再次训练,建立起所述音频和所述视频的映射关系;基于所述映射关系,来驱动数字人。
3、根据本专利技术实施例的另一方面,还提供了一种文本驱动数字人的装置,包括:构建模块,被配置为构建说话文本到说话音频的隐式空间的嵌入层;建立模块,被配置为基于所述嵌入层,通过在音频生成视频的训练结果上再次训练,建立起所述音频和所述视频的
4、在本专利技术实施例中,构建说话文本到说话音频的隐式空间的嵌入层;基于所述嵌入层,通过在音频生成视频的训练结果上再次训练,建立起所述音频和所述视频的映射关系;基于所述映射关系,来驱动数字人。通过上述步骤,解决了现有技术中通过tts进行音频合成导致生成能说话的数字人速度慢、精准度有损失的技术问题。
本文档来自技高网...【技术保护点】
1.一种文本驱动数字人的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,构建说话文本到说话音频的隐式空间的嵌入层,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述说话文本和所述音频特征,构建所述说话文本到所述说话音频的隐式空间的嵌入层,包括:
4.根据权利要求2所述的方法,其特征在于,通过在音频生成视频的训练结果上再次训练,建立起所述音频和所述视频的映射关系,包括:
5.一种文本驱动数字人的装置,其特征在于,包括:
6.根据权利要求5所述的装置,其特征在于,所述构建模块还被配置为:
7.根据权利要求6所述的装置,其特征在于,所述构建模块还被配置为:
8.根据权利要求6所述的装置,其特征在于,所述建立模块还被配置为:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至4中任一项所述的方法。
【技术特征摘要】
1.一种文本驱动数字人的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,构建说话文本到说话音频的隐式空间的嵌入层,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述说话文本和所述音频特征,构建所述说话文本到所述说话音频的隐式空间的嵌入层,包括:
4.根据权利要求2所述的方法,其特征在于,通过在音频生成视频的训练结果上再次训练,建立起所述音频和所述视频的映射关系,包括:
5.一种文本驱动...
【专利技术属性】
技术研发人员:蒋正浩,张鹏起,吴建伟,
申请(专利权)人:世优北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。