基于多模态图检索增强生成的多角色数字人构建方法技术

技术编号：43473707 阅读：21 留言：0更新日期：2024-11-27 13:13

本发明专利技术涉及数字人交互技术领域，具体涉及基于多模态图检索增强生成的多角色数字人构建方法，包括以下步骤：S1：采用图检索增强生成技术构建外部知识库，构建用于进行多模态处理的大语言模型；S2：创建数字人接口以供外部信息输入；S3：建立数字人架构，集成大语言模型和外部知识库，以进行数字人问答工作。本发明专利技术通过图检索增强生成技术为大语言模型提供外部知识库，并采用多模态处理的方式辅助进行数字人问答工作，能够实现数字人以特定语言风格，使用特定领域知识进行交互的功能，从而提高输出的问答内容质量，能够降低大语言模型的训练成本，提高问答质量，并能够进行数字人的多角色的快速切换。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字人交互，具体涉及基于多模态图检索增强生成的多角色数字人构建方法。

技术介绍

1、随着生成式人工智能技术如chatgpt的快速发展，由这些大型语言模型驱动的数字人已广泛应用于多个行业，包括个人辅助、智能客户服务和在线教育等。这些拟人化的数字人能够快速与用户互动，显著增强了人机交互的用户体验。然而，不同角色的数字人需要具备不同领域的知识，并且在交互时使用不同的语言风格。通用的大型语言模型通常无法涵盖所有特定领域的知识，因此目前的多角色数字人生成方案通常依赖于手工预设，如中国专利公开的一种基于对话模型的知识库文本匹配问答方法、装置及设备（公开号：cn118427326a），该专利技术中通过对历史运维事件工单进行分类，得到分类结果，根据分类结果筛选咨询类工单，从咨询类工单中提取符合预设业务规则的业务知识点，得到知识点集，根据知识点集构建本地专业知识库来进行问答工作，但无论是构建本地专业知识库还是进行微调训练的方式都将耗费大量时间，费时又费力，应用成本较高，且无法让数字人获取领域外的深层知识，容易产生幻觉问题，输出的问答内容质量较差。

...

【技术保护点】

1.基于多模态图检索增强生成的多角色数字人构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态图检索增强生成的多角色数字人构建方法，其特征在于：在所述步骤S1中，采用图检索增强生成技术构建外部知识库时，采用以下步骤：

3.根据权利要求2所述的基于多模态图检索增强生成的多角色数字人构建方法，其特征在于：在所述步骤A1中，文件的来源至少包括网络开放文档库、专业领域知识库和企业内部知识库中的一种，多模态信息的种类至少包括图像、文本、视频和音频中的一种。

4.根据权利要求2所述的基于多模态图检索增强生成的多角色数字人构建方法，其特征在于：在...

【技术特征摘要】

1.基于多模态图检索增强生成的多角色数字人构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态图检索增强生成的多角色数字人构建方法，其特征在于：在所述步骤s1中，采用图检索增强生成技术构建外部知识库时，采用以下步骤：

3.根据权利要求2所述的基于多模态图检索增强生成的多角色数字人构建方法，其特征在于：在所述步骤a1中，文件的来源至少包括网络开放文档库、专业领域知识库和企业内部知识库中的一种，多模态信息的种类至少包括图像、文本、视频和音频中的一种。

4.根据权利要求2所述的基于多模态图检索增强生成的多角色数字人构建方法，其特征在于：在所述步骤a2中，对文件中的多模态信息进行预处理时，包括以下步骤：

5.根据权利要求4所述的基于多模态图检索增强生成的多角色数字人构建方法，其特征在于：所述图像处理模型设置为用于将不同种类的多模态信息转换为能够在同一向量空间内进行表示的高维向量表示的clip。

6.根据权利要求2所述的基于多模态图检索增强生成的多角色数字人构建方法，其特征在于：在所述步骤a4中，图结构的索引至少包括图结构中相应图节点的标签、摘要、关键字和该图节点的高维向量表示中的一种。

【专利技术属性】
技术研发人员：曹家胜，陈海鹏，
申请(专利权)人：浙江莲花紫星智算科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人