数字人的控制方法、模型训练方法和装置制造方法及图纸

技术编号：35692510 阅读：49 留言：0更新日期：2022-11-23 14:41

本公开提供了一种数字人的控制方法、模型训练方法和装置，涉及人工智能技术领域，尤其涉及虚拟数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域。实现方案为：获取目标语音；从风格向量库中获取与所述目标语音相应的第一风格向量，所述风格向量库包括与所述目标语音相应的不同于第一风格向量的第二风格向量；至少基于所述第一风格向量，确定与所述目标语音相应的目标口型系数和目标姿态系数；以及基于所述目标口型系数和目标姿态系数控制所述数字人，以使得所述数字人的身体姿态适配于所述第一风格向量相应的身体姿态风格，并且所述数字人的唇动适配所述目标语音。音。音。

全部详细技术资料下载

【技术实现步骤摘要】
数字人的控制方法、模型训练方法和装置

[0001]本公开涉及人工智能
，尤其涉及虚拟数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等
，具体涉及一种数字人的控制方法以及用于数字人的模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术。人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]数字人高精形象生成一直是学术界的研究热点，并有着广泛的应用，最为常见的应用领域有虚拟主播、虚拟客服、虚拟助理、虚拟教师、虚拟偶像以及其他互动游戏和娱乐等。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是相关技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何相关技术中已被公认。

技术实现思路

[0005]本公开提供了一种数字人的控制方法以及用于数字人的模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面，提供了数字人的控制方法，包括：获取目标语音；从风格向量库中获取与所述目标语...

【技术保护点】

【技术特征摘要】
1.一种数字人的控制方法，包括：获取目标语音；从风格向量库中获取与所述目标语音相应的第一风格向量，所述风格向量库包括与所述目标语音相应的不同于第一风格向量的第二风格向量；至少基于所述第一风格向量，确定与所述目标语音相应的目标口型系数和目标姿态系数；以及基于所述目标口型系数和目标姿态系数控制所述数字人，以使得所述数字人的身体姿态适配于所述第一风格向量相应的身体姿态风格，并且所述数字人的唇动适配所述目标语音。2.根据权利要求1所述的方法，其中，所述风格向量库包括多个风格向量，所述多个风格向量中不同风格向量相应的身体姿态风格不同。3.根据权利要求1或2所述的方法，还包括：获取所述目标语音的语音特征，所述至少基于所述第一风格向量，确定与所述目标语音相应的目标口型系数和目标姿态系数包括：基于所述目标语音的语音特征和所述第一风格向量，确定与所述目标语音相应的目标口型系数和目标姿态系数。4.根据权利要求1
‑
3中任一项所述的方法，其中，所述第一风格向量为从风格向量库中所获取的一个风格向量。5.根据权利要求1
‑
3中任一项所述的方法，还包括：获取所述目标语音相应的目标文本，所述目标文本包括多个发音单元；以及获取所述目标语音的每个发音单元相应的时间戳，所述至少基于所述第一风格向量，确定与所述目标语音相应的目标口型系数和目标姿态系数包括：基于所述目标语音所包括的多个发音单元各自相应的时间戳以及所述第一风格向量，确定与所述目标语音相应的目标口型系数和目标姿态系数。6.根据权利要求5所述的方法，其中，所述第一风格向量包括从风格向量库中所获取的多个风格向量，基于所述目标语音所包括的多个发音单元各自相应的时间戳以及所述第一风格向量，确定与所述目标语音相应的目标口型系数和目标姿态系数包括：基于所述目标语音自身的上下文信息，确定所述目标语音中与所述多个风格向量中的每一者相应的起始发音单元和结束发音单元；对于所述多个风格向量中的每一者，基于相应的起始发音单元和结束发音单元的时间戳，确定所述风格向量相应的起始帧和结束帧；以及基于所述多个风格向量、所述多个风格向量中的每一者的起始帧和结束帧，确定与所述目标语音在时间上逐帧地对齐的目标口型系数和目标姿态系数。7.根据权利要求6所述的方法，其中，所述目标语音的上下文信息包括有关下列项中的一者或多者的信息：张口音、闭口音、爆破音、重复语段、语气词、转折词。8.根据权利要求1
‑
7中任一项所述的方法，还包括：获取目标情绪系数；以及
基于目标情绪系数调整所述目标姿态系数，以调整所述数字人的身体姿态幅度，所述基于所述目标口型系数和目标姿态系数控制所述数字人包括：基于所述目标口型系数和调整后的目标姿态系数控制所述数字人。9.根据权利要求1
‑
7中任一项所述的方法，其中，从风格向量库中获取与所述目标语音相应的第一风格向量包括：获取与所述目标语音相关的预设发音单元；从风格向量库中获取所述预设发音单元相应的多个风格向量；基于所述多个风格向量确定所述预设发音单元相应的多个口型系数和所述预设发音单元相应的多个姿态系数；基于所述多个口型系数和所述多个姿态系数控制数字人；以及基于相应的所述多个口型系数和所述多个姿态系数所得到的数字人的控制结果，从所述多个风格向量中确定所述第一风格向量。10.根据权利要求1
‑
7中任一项所述的方法，其中，至少基于所述第一风格向量，确定与所述目标语音相应的目标口型系数和目标姿态系数包括...

【专利技术属性】
技术研发人员：郭紫垣，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人