构建授课数字人方法技术

技术编号：41149212 阅读：4 留言：0更新日期：2024-04-30 18:16

本发明专利技术涉及人工作领域，提供一种构建授课数字人方法，使用深度学习算法so‑vits‑svc，克隆授课老师的声音音色，生成带有授课老师声音音色的音频流；构建基于SadTalker的Wav2Talker数字人模型，利用深度学习模型实现从音频流、人物图片生成授课老师自然的肢体、姿态、表情动态视频；应用video‑retalking技术，给脸部表情加入情绪变化；扩展GFPGAN的人脸眼睛和鼻子超分辨算法，高清化整个人物脸部特征；采用FaceChain深度学习模型工具，构建如真人写真的数字人形象。本发明专利技术构建授课数字人方法，成本降低，不需要三维建模和动作捕捉技术形成虚拟人。根据授课老师过往录播、直播音视频，训练各种生成模型，包括音色、姿态、表情，肢体动作模型；具有多种写真形象的数字人。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，具体的说，是涉及一种构建授课数字人方法。

技术介绍

1、数字人技术是一种基于人工智能和自然语言处理技术的创新型技术，旨在打造更加智能、个性化和人性化的人机交互体验。它可以应用于虚拟助手、客服机器人、教育培训等领域，通过模拟人类语言交流与思维逻辑，实现与用户之间更加自然流畅的沟通。

2、数字人技术的背后涉及深度学习、自然语言处理、对话系统设计等多项技术，以及大量的语料库和算法优化。通过不断的训练和优化，数字人技术可以逐渐提升自身的智能水平，使得与用户的交互更加符合个性化需求。

3、总的来说，数字人技术的发展代表了人工智能和自然语言处理技术在人机交互领域的最新进展，为改善用户体验和提升智能服务能力提供了全新的可能性。

4、现有技术方案是利用计算机技术和人工智能技术实现虚拟人物进行直播的技术。以下是现有虚拟人直播的一些关键技术要点：

5、(1)三维建模：虚拟人直播需要对虚拟人物进行三维建模，包括头部、身体和肢体等部分。通过先进的图形处理技术和计算机视觉算法，将真实人物的外貌轮廓、面部表情、姿势等特征转化为三维模型。

6、(2)动作捕捉：虚拟人直播需要捕捉真实人物的动作，并将其应用到虚拟人物上，以使其能够实时模仿真人的动作。通常使用传感器设备或摄像头捕捉真实人物的动作数据，并通过算法将其应用到虚拟人物的骨骼系统上。

7、(3)语音合成：虚拟人直播中，虚拟人物需要有自然流畅的语音表达能力。语音合成技术可以将文字转化为逼真的语音，使虚拟人物能够以自然的语音进行直播。

8、(4)语义理解：为了实现虚拟人物对观众的语义理解和自动回复，需要利用自然语言处理和人工智能算法。这些技术可以分析观众的提问或评论，并生成有意义的回应。诸如语义分析、情感识别和对话生成等技术在此起着重要作用。

9、(5)实时渲染：虚拟人直播需要在实时场景中渲染虚拟人物，以保持顺畅的直播体验。实时渲染技术通过利用图形处理单位(gpu)的并行计算能力，将三维模型转化为逼真的图像，并实时呈现给观众。

10、(6)互动交流：虚拟人直播需要与观众进行实时的互动交流。这可以通过自然语言处理和情感识别等技术实现，使虚拟人物能够理解观众的提问并做出相应的回应。

11、通过以上关键技术要点的结合，能够实现虚拟人物的实时直播，为观众带来全新的娱乐和交流体验。

12、现有技术的缺点

13、(1)需要专业人员、专业传感器、专业软件来捕捉真实人物的外贸轮廓、面部表情、姿势姿态转化为三维模型，非常复杂且成本高，

14、(2)通过专业软件建模一般是形成虚拟动画人，与真人有很大差异，有不真实，不自然感觉。

15、(3)真人音色缺失，与虚拟人的嘴唇动态不同步。

16、(4)真人情绪缺失，表情生硬或者欠缺情绪表达能力。

17、(5)姿势姿态别扭，与虚拟人的语音不同步，不协调。

18、(6)面部表情缺失，面部表情机械化。

19、(7)形象单一，只有固定集中形象。

技术实现思路

1、针对上述现有技术中的不足，解决肢体动作缺失的问题，本专利技术提供一种能够结合音色、表情、肢体、姿态，创造出更全面性的构建授课数字人方法。

2、本专利技术所采取的技术方案是：

3、一种构建授课数字人方法，包括：

4、(1)使用深度学习算法so-vits-svc，克隆指定授课老师的声音音色，生成带有授课老师声音音色的音频流；

5、(2)构建wav2talker的数字人模型，wav2talker基于sadtalker模型，但sadtalker模型仅融合了声音音频、头部姿态、面部表情这3种特征来生成说话人头部视频，局限于头部动态，缺少头部以下肢体动作，不能表达出完整数字人的肢体语言。因此我们提出了wav2talker模型,wav2talker模型在sadtalker模型的基础加入了人体肢体动作生成，包括人体骨骼关键点和手部关键点，形成了完成的数字人形象；

6、(3)应用video-retalking技术，实现脸部表情加入情绪变化，比如高兴、中立、悲伤、喜悦等。使得数字人的表现具有和真人一样的情绪表达；

7、(4)扩展gfpgan的人脸眼睛和鼻子超分辨算法，高清化整个人物脸部。该算法能够将输入的低分辨率图像转换为高分辨率图像，同时保持图像的细节和清晰度。通过这个技术，我们可以将数字人的整个脸部器官高清化，使其更加逼真清晰。

8、(5)采用facechain深度学习模型工具，构建如真人写真的数字人形象。

9、结合这以上技术，同步带有授课老师声音音色的音频流和嘴唇动态、面部表情、肢体动作，使得数字人的表现比传统虚拟人更加更加真实自然。

10、构建wav2talker的数字人模型过程如下：

11、输入：输入视频关键帧序列v:{v0,...,vn}，n为关键帧数，输入视频对应的输入音频记作ɑ:{ɑ0,...,ɑn}；

12、首先，从视频起始关键帧授课老师图片v0(单帧图像)中，提取出24个人体骨骼关键点和21个手部关键点，共45个，我们称之为起始肢体关键点，记作η0；

13、然后，构建条件生成对抗网络cgan(肢体gan)，肢体gan的生成器模块通过逐步输入η0、{ɑ0,...,ɑn}，逐渐生成{η1,...,ηn}后续肢体关键点序列；

14、再次，{η1,...,ηn}序列通过肢体关键点到视频渲染(skeleton-to-videorendering)出授课老师自然连续一致的肢体动作视频；

15、最后，结合sadtalker的人体头部姿态(姿态vae)，面部表情(表情net)模块，形成完整的授课数字人视频。

16、本专利技术相对现有技术的有益效果：

17、本专利技术构建授课数字人方法，通过克隆真人授课老师的声音音色、面部表情、肢体动作特征，数字人可以代替真人授课老师，进行24小时直播及互动，从而达到与真人相同的授课效果。

18、本专利技术构建授课数字人方法，基于wav2lip和sadtalker，提出了wav2talker深度学习模型，能够补全wav2lip和sadtalker只能生成人物头部表情和动作的不足，可以生成面部表情、肢体动作，使得数字人形象更完备更真实。

19、本专利技术构建授课数字人方法，成本降低，不需要三维建模和动作捕捉技术形成虚拟人，直接克隆真人以往音色、姿态动作进行新视频制作。

20、本专利技术构建授课数字人方法，根据克隆真人以往录播、直播音频，形成该人的真实音色模型；真实自然的嘴唇动态、面部表情，肢体动作；具有情绪表达的面部表情；具有多种写真形象的数字人。

本文档来自技高网...

【技术保护点】

1.一种构建授课数字人方法，其特征在于，包括：

2.根据权利要求1所述数字人，其特征在于：

【技术特征摘要】

1.一种构建授课数字人方法，其特征在于，包括：

【专利技术属性】
技术研发人员：方明，余松，
申请(专利权)人：武汉之道在线教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人