一种面向多源异构本地知识库的大模型语音问答系统技术方案

技术编号：41740819 阅读：60 留言：0更新日期：2024-06-19 13:00

本发明专利技术公开了一种面向多源异构本地知识库的大模型语音问答系统，包括：多源异构本地知识库处理模块，考虑本地知识库数据来源、结构、类型等方面的多样性，设计基于语义完整性的切割方式构建向量数据库；基于本地知识库的大模型推理模块，提供行业知识库专属的匹配阈值，进行增量式动态更新，并实现与行业知识库之间自适应上下文匹配，以解决大模型推理本地知识冗余或匮乏问题；人机语音交互模块，引入虚拟数字人和语音交互接口实现模型与用户的“人工”沟通，实现良好的人机交互。本发明专利技术将各行业复杂多样的本地知识库进行了统一处理和自适应匹配，实现了低成本、高效率、一站式的大模型语音问答系统部署。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及垂类大模型应用的，尤其是指一种面向多源异构本地知识库的大模型语音问答系统。

技术介绍

1、近来年，以chatgpt为代表的生成式人工智能工具迅速火爆起来；以其在自然语言处理、计算机视觉、强化学习等领域展现出的卓越的性能，成为迈向通用人工智能时代的历史性节点之一。随着模型的快速更迭不断完善，通用生成式人工智能目前已经显示出巨大的应用潜力和商业价值，并引起了各个领域的广泛关注。

2、当今大模型的任务类型正由封闭场景转向开放任务，基于多样化的应用场景，结合本地和专业知识库，由通用式人工智能向服务于各行业的专用式人工智能转化。然而行业内现存数据有着巨大差异，且大部分本地数据有着敏感性、安全性等方面需要考虑的问题，导致目前人工智能的生产范式属于典型的手工设计模式，即专用人工智能部署需要针对每个细分场景开发专属的处理流程；同时大模型的垂类应用也缺乏人机交互良好的一站式部署系统；进而导致人工智能开发周期长，落地成本高，这成为生成式大语音模型规模化应用亟待突破的制约。

技术实现思路

<...

【技术保护点】

1.一种面向多源异构本地知识库的大模型语音问答系统，其特征在于，包括：多源异构本地知识库处理模块、基于本地知识库的大模型推理模块和人机语音交互模块；

2.根据权利要求1所述的一种面向多源异构本地知识库的大模型语音问答系统，其特征在于，所述多源异构本地知识库处理模块考虑本地数据来源、结构、类型、格式的多样性，将复杂、多样的行业数据按照语义完整性进行统一的转换，旨在满足多行业的适配性，包括以下步骤：

3.根据权利要求2所述的一种面向多源异构本地知识库的大模型语音问答系统，其特征在于，所述语义完整性分割将本地数据划分为结构化与非结构化数据，对于结构化数据，按照独立数据单...

【技术特征摘要】

3.根据权利要求2所述的一种面向多源异构本地知识库的大模型语音问答系统，其特征在于，所述语义完整性分割将本地数据划分为结构化与非结构化数据，对于结构化数据，按照独立数据单位进行分割；对于非结构化数据，按照优先级：子数据长度上限阈值τ>段>句的方式进行分割，即在长度上限阈值内，优先以段、句为单位进行语义化分割，以最大化保留转换后子数据的语义完整性。

4.根据权利要求1所述的一种面向多源异构本地知识库的大模型语...

【专利技术属性】
技术研发人员：阳先令，余志文，杨楷翔，黄思泳，张柳坚，张子骁，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人