知识库构建方法及基于生成式大语言模型的问答对话方法和系统技术方案

技术编号:39401801 阅读:10 留言:0更新日期:2023-11-19 15:54
本发明专利技术涉及数据处理技术领域,特别涉及一种知识库构建方法及基于生成式大语言模型的问答对话方法和系统,依据问答对话业务目标需求创建知识库名称及知识库中用于存储知识库文档数据的向量数据库库表存储结构,并将知识库元数据信息写入向量数据库;获取问答对话业务目标需求对应的文档文件中文本信息;并依据文本分割长度及文本终止符对文本进行分割,得到文本信息所对应的若干文本块;利用预训练大语言模型提取每个文本块对应的文本特征嵌入向量,并将文本块元数据信息及及文本块对应的文本特征嵌入向量写入向量数据库中的库表存储结构,将向量数据库中存储的数据作为问答对话业务目标需求所需的知识库,通过构建私有知识库并基于生成式大语言模型对用户问题以及知识库内容进行理解概括来实现文本对话,以提升用户体验

【技术实现步骤摘要】
知识库构建方法及基于生成式大语言模型的问答对话方法和系统


[0001]本专利技术涉及数据处理
,特别涉及一种问答对话用文本知识库构建方法

及基于生成式大语言模型的文本知识库问答对话方法和系统


技术介绍

[0002]近年来,大语言模型
(

BERT、GPT

3)
的发展引起了广泛的关注和应用

大语言模型能够从大规模的文本数据中学习到丰富的语言知识和语境理解能力,不同类型的大语言模型可以应对不同类型的应用场景

比如属于自编码器模型
(Autoencoder Models)

BERT
,这类模型通常包括编码器和解码器两个部分,编码器将输入文本转换为一个低维表示,解码器则将低维表示还原为原始文本,在文本动态向量化

分类标签

命名实体识别标签等应用场景上表现出色;而属于自回归模型
(Autoregressive Models)

GPT
‑3这类模型,按照从左到右的顺序逐个生成单词或字符,在生成高质量的自然语言文本

自动文本摘要

对话系统等多个领域取得了重要的成果

知识库问答的主要任务是根据用户通过自然语言提出的问题,在结构化或者半结构化数据上完成查询

匹配,并将结果组合成自然语言形式返回给用户
。<br/>其主要可看做由知识库的构建和基于自然语言的对话系统两大部分构成

[0003]现有知识库问答的知识库构建部分,多采用从指定知识
(
即文本文件
)
中抽取的“实体
A

关系

实体
B”为基本单位的三元组来组成基于图结构的知识图谱

通常这一构建过程是半自动化的,即通过模型进行命名实体识别,自动抽取知识中的三元组添加进知识图谱中,再由人工纠正错误的

或添加未识别出来的三元组完善和提高该知识库的质量

然后基于自然语言对话的部分,同样对用户提出的问题进行命名实体识别,并将问题中的实体对知识库进行查询并给出答案

比如给定问题“中国的首都在哪里?”,会将其转化为
(Country:
中国
,Capital_of_the_Country:
首都
)
进行查找并在知识库中匹配到三元组
(Country:
中国
,Capital_of_the_Country:
首都
,City:
北京
)
,从而给出答案“北京”。
有的问答系统也会在知识图谱匹配的结果之上,通过全文索引或者向量相似度计算的方式,加上对原有知识文档的的查找结果,将匹配到的文档链接当做参考答案一并返给用户

即使知识图谱的答案不满足用户意图,用户可以再自行对相关文档进行查阅

然而,自然语言问题与知识库中的三元组存在语义鸿沟,即三元组关系在用户的自然语言问题中的可能有多种表达方式,使得实体名称存在歧义从而匹配出不准确或答非所问的答案,导致回复的准确率较低

用户体验差


技术实现思路

[0004]为此,本专利技术提供一种问答对话用文本知识库构建方法

及基于生成式大语言模型的文本知识库问答对话方法和系统,解决现有知识库问答对话中图结构知识图谱构建耗时费力

匹配回复准确率低

用户体验差等情形

[0005]按照本专利技术所提供的设计方案,提供一种问答对话用文本知识库构建方法,包含如下内容:
[0006]依据问答对话业务目标需求创建知识库名称及知识库中用于存储知识库文档数据的向量数据库库表存储结构,并将知识库元数据信息写入向量数据库,其中,知识库元数据信息包括知识库名称及预配置文本分割长度;
[0007]针对问答对话业务目标需求对应的文档文件,依据文档文件类型进行预处理,以获取文档文件中文本信息;并依据文本分割长度及文本终止符对文本进行分割,得到文档文件中文本信息所对应的若干文本块;
[0008]利用预训练大语言模型提取每个文本块对应的文本特征嵌入向量,并将文本块元数据信息及文本块对应的文本特征嵌入向量写入向量数据库中的库表存储结构,将向量数据库中存储的数据作为问答对话业务目标需求所需的知识库,其中,文本块元数据信息包括文档文件名称

文档连接

文本块原始文本和文本块在文档文件文本信息中的序号

[0009]进一步地,依据文档文件类型进行预处理,以获取文档文件中文本信息,包含:
[0010]首先,判断文档文件类型,若为文字格式文件,则直接获取文档文件的纯文本信息;若为
pdf
或图片格式文件,则使用
OCR
技术识别并获取文档文件中的纯文本信息

[0011]进一步地,依据文本分割长度及文本终止符对文本进行分割,得到文档文件中文本信息所对应的若干文本块,还包含:
[0012]判断分割后文本块的最后一个句子是否完整,如果不完整,则根据分割截断位置与句子终止符号两者之间的距离来舍弃该最后一个句子或补全该最后一个句子

[0013]进一步地,所述向量数据库库表存储结构采用
Collection
对象进行存储

[0014]进一步地,本专利技术还提供一种基于生成式大语言模型的文本知识库问答对话方法,包含:
[0015]获取用户在输入栏输入的问题文本,利用第一预训练大语言模型获取问题文本的第一文本特征嵌入向量,其中,第一预训练大语言模型采用上述知识库构建过程中的预训练大语言模型;
[0016]针对第一文本特征嵌入向量,在上述所构建的知识库中查询语义最相近的目标文本块文本特征嵌入向量,并获取目标文本块序号前后的文本块;
[0017]利用目标文本块和目标文本块序号前后文本块组建引用知识,并整合引用知识和问题文本上下文;
[0018]将整合后的文本内容作为预训练生成式大语言模型输入,利用预训练生成式大语言模型来获取问题文本对应的响应文本,并将响应文本输出反馈给用户

[0019]作为本专利技术基于生成式大语言模型的文本知识库问答对话方法,进一步地,在知识库中查询语义最相近的目标文本块文本特征嵌入向量,并获取目标文本块序号前后的文本块,包含:
[0020]首先,利用常用相似度计算方法计算出第一文本特征嵌入向量与知识库中文本块对应文本特征嵌入向量之间的相似度,依据相似度在知识库中选取对应地最接近的
K
个文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种问答对话用文本知识库构建方法,其特征在于,包含如下内容:依据问答对话业务目标需求创建知识库名称及知识库中用于存储知识库文档数据的向量数据库库表存储结构,并将知识库元数据信息写入向量数据库,其中,知识库元数据信息包括知识库名称及预配置文本分割长度;针对问答对话业务目标需求对应的文档文件,依据文档文件类型进行预处理,以获取文档文件中文本信息;并依据文本分割长度及文本终止符对文本进行分割,得到文档文件中文本信息所对应的若干文本块;利用预训练大语言模型提取每个文本块对应的文本特征嵌入向量,并将文本块元数据信息及及文本块对应的文本特征嵌入向量写入向量数据库中的库表存储结构,将向量数据库中存储的数据作为问答对话业务目标需求所需的知识库,其中,文本块元数据信息包括文档文件名称

文档连接

文本块原始文本和文本块在文档文件文本信息中的序号
。2.
根据权利要求1所述的问答对话用文本知识库构建方法,其特征在于,依据文档文件类型进行预处理,以获取文档文件中文本信息,包含:首先,判断文档文件类型,若为文字格式文件,则直接获取文档文件的纯文本信息;若为
pdf
或图片格式文件,则使用
OCR
技术识别并获取文档文件中的纯文本信息
。3.
根据权利要求1所述的问答对话用文本知识库构建方法,其特征在于,依据文本分割长度及文本终止符对文本进行分割,得到文档文件中文本信息所对应的若干文本块,还包含:判断分割后文本块的最后一个句子是否完整,如果不完整,则根据分割截断位置与句子终止符号两者之间的距离来舍弃该最后一个句子或补全该最后一个句子
。4.
根据权利要求1所述的问答对话用文本知识库构建方法,其特征在于,所述向量数据库库表存储结构采用
Collection
对象进行存储
。5.
一种基于生成式大语言模型的文本知识库问答对话方法,其特征在于,包含:获取用户在输入栏输入的问题文本,利用第一预训练大语言模型获取问题文本的第一文本特征嵌入向量,其中,第一预训练大语言模型采用权利要求1中所述的预训练大语言模型;针对第一文本特征嵌入向量,在权利要求1~4任一项所构建的知识库中查询语义最相近的目标文本块文本特征嵌入向量,并获取目标文本块序号前后的文本块;利用目标文本块和目标文本块序号前后文本块组建引用知识,并整合引用知识和问题文本上下文;将整合后的文本内容作为生成式...

【专利技术属性】
技术研发人员:张帆叶艳韩东阳沈亚飞魏红格郝亮
申请(专利权)人:数字郑州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1