【技术实现步骤摘要】
知识库构建方法及基于生成式大语言模型的问答对话方法和系统
[0001]本专利技术涉及数据处理
,特别涉及一种问答对话用文本知识库构建方法
、
及基于生成式大语言模型的文本知识库问答对话方法和系统
。
技术介绍
[0002]近年来,大语言模型
(
如
BERT、GPT
‑
3)
的发展引起了广泛的关注和应用
。
大语言模型能够从大规模的文本数据中学习到丰富的语言知识和语境理解能力,不同类型的大语言模型可以应对不同类型的应用场景
。
比如属于自编码器模型
(Autoencoder Models)
的
BERT
,这类模型通常包括编码器和解码器两个部分,编码器将输入文本转换为一个低维表示,解码器则将低维表示还原为原始文本,在文本动态向量化
、
分类标签
、
命名实体识别标签等应用场景上表现出色;而属于自回归模型
(Autoregressive Models)
的
GPT
‑3这类模型,按照从左到右的顺序逐个生成单词或字符,在生成高质量的自然语言文本
、
自动文本摘要
、
对话系统等多个领域取得了重要的成果
。
知识库问答的主要任务是根据用户通过自然语言提出的问题,在结构化或者半结构化数据上完成查询
、
匹配,并将结果组合成自然语言形式返回给用户
。< ...
【技术保护点】
【技术特征摘要】
1.
一种问答对话用文本知识库构建方法,其特征在于,包含如下内容:依据问答对话业务目标需求创建知识库名称及知识库中用于存储知识库文档数据的向量数据库库表存储结构,并将知识库元数据信息写入向量数据库,其中,知识库元数据信息包括知识库名称及预配置文本分割长度;针对问答对话业务目标需求对应的文档文件,依据文档文件类型进行预处理,以获取文档文件中文本信息;并依据文本分割长度及文本终止符对文本进行分割,得到文档文件中文本信息所对应的若干文本块;利用预训练大语言模型提取每个文本块对应的文本特征嵌入向量,并将文本块元数据信息及及文本块对应的文本特征嵌入向量写入向量数据库中的库表存储结构,将向量数据库中存储的数据作为问答对话业务目标需求所需的知识库,其中,文本块元数据信息包括文档文件名称
、
文档连接
、
文本块原始文本和文本块在文档文件文本信息中的序号
。2.
根据权利要求1所述的问答对话用文本知识库构建方法,其特征在于,依据文档文件类型进行预处理,以获取文档文件中文本信息,包含:首先,判断文档文件类型,若为文字格式文件,则直接获取文档文件的纯文本信息;若为
pdf
或图片格式文件,则使用
OCR
技术识别并获取文档文件中的纯文本信息
。3.
根据权利要求1所述的问答对话用文本知识库构建方法,其特征在于,依据文本分割长度及文本终止符对文本进行分割,得到文档文件中文本信息所对应的若干文本块,还包含:判断分割后文本块的最后一个句子是否完整,如果不完整,则根据分割截断位置与句子终止符号两者之间的距离来舍弃该最后一个句子或补全该最后一个句子
。4.
根据权利要求1所述的问答对话用文本知识库构建方法,其特征在于,所述向量数据库库表存储结构采用
Collection
对象进行存储
。5.
一种基于生成式大语言模型的文本知识库问答对话方法,其特征在于,包含:获取用户在输入栏输入的问题文本,利用第一预训练大语言模型获取问题文本的第一文本特征嵌入向量,其中,第一预训练大语言模型采用权利要求1中所述的预训练大语言模型;针对第一文本特征嵌入向量,在权利要求1~4任一项所构建的知识库中查询语义最相近的目标文本块文本特征嵌入向量,并获取目标文本块序号前后的文本块;利用目标文本块和目标文本块序号前后文本块组建引用知识,并整合引用知识和问题文本上下文;将整合后的文本内容作为生成式...
【专利技术属性】
技术研发人员:张帆,叶艳,韩东阳,沈亚飞,魏红格,郝亮,
申请(专利权)人:数字郑州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。