System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大规模预训练语言模型的数字人生成系统技术方案_技高网

一种基于大规模预训练语言模型的数字人生成系统技术方案

技术编号:40872145 阅读:2 留言:0更新日期:2024-04-08 16:39
本发明专利技术公开一种基于大规模预训练语言模型的数字人生成系统,涉及虚拟数字人技术领域,该系统包括:服务器和全息显示模块;服务器包括专属大模型生成模块、预设动作几何模型生成模块、数字人形象生成模块和个性化数字人生成模块;专属大模型生成模块用于采用定制化数据集对大规模预训练语言模型进行微调得到专属大模型;预设动作几何模型生成模块用于对目标人员进行静态扫描建模得到多个预设动作几何模型;数字人形象生成模块用于根据多个预设动作几何模型生成数字人形象;个性化数字人生成模块用于将专属大模型、定制化语音和动作加载到数字人形象。本发明专利技术实现了通过个性化数字人生成模块生成通过全息显示模块显示的个性化数字人。

【技术实现步骤摘要】

本专利技术涉及虚拟数字人,特别是涉及一种基于大规模预训练语言模型的数字人生成系统


技术介绍

1、目前随着大规模预训练语言模型(large-scale pretrained language model)的不断发展,越来越多的行业开始基于开源的大规模预训练语言模型进行微调,并应用到垂直细分行业,并取得了突破性的成果。其中,通过对自然语言处理任务中,对于自然流畅文本的生成,把一种语言翻译成另外一种语言,理解问题并给出准确的答案,判断文本情感等领域均取得了重大的突破。而对于大语言模型与多模态的融合是提升数字人形象的重要方法,通过对大语言模型的微调与实际应用场景的结合。

2、各种基于大规模预训练语言模型微调的生成式应用最近一顿时间迅猛发展起来,从文字、声音、图像、视频等场景的生成应用层出不穷,而融合人工智能生成的内容(artificial intelligence generated content,aigc)生成出来的数字人虚拟形象,在短视频平台、元宇宙或者增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)应用中往往一眼就被用户识破,达不到沉浸式体验的效果。

3、当前传统数字人系统构建存在制作成本大、不易个性化定制的问题。目前主流的数字人教师生成系统的内容多是取材于各个学科老师的知识储备,核心技术主要涉及图像图形学、语音合成技术、三维(3d)建模技术、视频渲染技术等。内容的制作路径还是沿袭了传统备课、课件制作、拍摄、剪辑合成等复杂的流程,每制作一个数字人相当于1:1复制了一门课,开发周期和流程往往需要大量的人力和物力,而且受限于老师的个人能力,形态表现效果往往失去了生动的体现。


技术实现思路

1、本专利技术的目的是提供一种基于大规模预训练语言模型的数字人生成系统,提高了数字人的个性化同时降低了制作成本。

2、为实现上述目的,本专利技术提供了如下方案:一种基于大规模预训练语言模型的数字人生成系统,包括:服务器和与所述服务器连接的全息显示模块;所述服务器包括专属大模型生成模块、预设动作几何模型生成模块、数字人形象生成模块和个性化数字人生成模块。

3、所述专属大模型生成模块用于采用定制化数据集对大规模预训练语言模型进行微调,得到专属大模型。

4、所述预设动作几何模型生成模块用于对目标人员进行静态扫描建模,得到多个预设动作几何模型。

5、所述数字人形象生成模块用于对多个所述预设动作几何模型进行纹理渲染和平滑处理,形成表示数字人形象的模型状态字典。

6、所述个性化数字人生成模块用于将所述专属大模型、定制化语音和动作模型库中动作加载到所述数字人形象,生成通过所述全息显示模块显示的个性化数字人。

7、可选地,所述定制化数据集包括多个子集,多个子集包括文本数据子集和语料子集,每个子集中样本数据均包括输入数据和标签数据。

8、可选地,所述专属大模型生成模块训练单元和测试单元;所述训练单元用于利用所述定制化数据集对所述大规模预训练语言模型进行训练;所述测试单元用于对所述训练单元输出的训练过的大规模预训练语言模型进行测试,若测试结果满足设定条件,则将训练过的大规模预训练语言模型作为所述专属大模型输出。

9、可选地,预设动作几何模型生成模块包括多视角点云数据采集单元和点云数据对齐融合单元。

10、所述多视角点云数据采集单元用于采用深度相机对目标人员进行多个预设动作进行三维数据采集,得到各预设动作的多视角点云数据。

11、所述点云数据对齐融合单元用于对每个预设动作的多视角点云数据进行对齐融合,得到多个预设动作几何模型。

12、可选地,个性化数字人生成模块还用于选择生成2d或者3d的个性化数字人。

13、可选地,所述大规模预训练语言模型采用昇腾910b人工智能芯片。

14、可选地,所述个性化数字人生成模块包括语音合成单元和多模态融合单元;

15、所述语音合成单元用于采用专属大模型对定制化语音进行克隆,生成所述个性化数字人的语音。

16、所述多模态融合单元用于对所述个性化数字人的语音、动作和表情进行连续性弥合。

17、可选地,还包括工作站,所述工作站与所述服务器连接,所述工作站用于向所述服务器传输所述定制化数据集。

18、可选地,所述全息显示模块包括麦克风阵列和音响设备,所述麦克风阵列用于采集用户的语音,所述音响设备用于为所述个性化数字人输出声音。

19、根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术采用定制化数据集对大规模预训练语言模型进行微调,得到专属大模型,降低了教学开发的成本,同时通过定制化数据集提高了数字人的个性化,另外,将专属大模型、定制化语音和动作模型库中动作加载到数字人形象,并通过全息显示模块进行显示,提高了数字人的生动性。

本文档来自技高网...

【技术保护点】

1.一种基于大规模预训练语言模型的数字人生成系统,其特征在于,包括:服务器和与所述服务器连接的全息显示模块;所述服务器包括专属大模型生成模块、预设动作几何模型生成模块、数字人形象生成模块和个性化数字人生成模块;

2.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,所述定制化数据集包括多个子集,多个子集包括文本数据子集和语料子集,每个子集中样本数据均包括输入数据和标签数据。

3.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,所述专属大模型生成模块训练单元和测试单元;所述训练单元用于利用所述定制化数据集对所述大规模预训练语言模型进行训练;所述测试单元用于对所述训练单元输出的训练过的大规模预训练语言模型进行测试,若测试结果满足设定条件,则将训练过的大规模预训练语言模型作为所述专属大模型输出。

4.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,预设动作几何模型生成模块包括多视角点云数据采集单元和点云数据对齐融合单元;

5.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,个性化数字人生成模块还用于选择生成2D或者3D的个性化数字人。

6.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,所述大规模预训练语言模型采用昇腾910B人工智能芯片。

7.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,所述个性化数字人生成模块包括语音合成单元和多模态融合单元;

8.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,还包括工作站,所述工作站与所述服务器连接,所述工作站用于向所述服务器传输所述定制化数据集。

9.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,所述全息显示模块包括麦克风阵列和音响设备,所述麦克风阵列用于采集用户的语音,所述音响设备用于为所述个性化数字人输出声音。

...

【技术特征摘要】

1.一种基于大规模预训练语言模型的数字人生成系统,其特征在于,包括:服务器和与所述服务器连接的全息显示模块;所述服务器包括专属大模型生成模块、预设动作几何模型生成模块、数字人形象生成模块和个性化数字人生成模块;

2.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,所述定制化数据集包括多个子集,多个子集包括文本数据子集和语料子集,每个子集中样本数据均包括输入数据和标签数据。

3.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,所述专属大模型生成模块训练单元和测试单元;所述训练单元用于利用所述定制化数据集对所述大规模预训练语言模型进行训练;所述测试单元用于对所述训练单元输出的训练过的大规模预训练语言模型进行测试,若测试结果满足设定条件,则将训练过的大规模预训练语言模型作为所述专属大模型输出。

4.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统,其特征在于,预设动作几何模型生成模块包括...

【专利技术属性】
技术研发人员:刘丽
申请(专利权)人:北京烽火万家科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1