私有领域文档问答方法、装置、电子设备和存储介质制造方法及图纸

技术编号:42296979 阅读:15 留言:0更新日期:2024-08-14 15:46
本公开涉及一种私有领域文档问答方法、装置、电子设备和存储介质,确定包括关键词数据库和向量数据库的私有领域知识库,关键词数据库中和向量数据库中分别包括具有对应的分片文档的关键词和向量。提取用户提问信息得到关键词列表和提问向量。根据关键词列表和提问向量分别在关键词数据库和向量数据库中进行匹配,得到关键词匹配结果和向量匹配结果,以确定与用户提问信息匹配的相关分片文档。最后通过预先训练的大语言模型基于相关分片文档进行检索,得到用户提问信息对应的回答信息。本公开通过关键词和向量共同检索的方式提高检索结果与提问的匹配程度,进而保证得到更可靠的回答信息。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种私有领域文档问答方法、装置、电子设备和存储介质


技术介绍

1、在当前信息时代,大型语言模型已经在通用场景中显著提高了工作效率和生活便利。诸如gpt-3等的这些模型通过深度学习技术,具备了自动理解和生成自然语言文本的能力,广泛应用于自动文本生成、自动翻译、智能客服和虚拟助手等领域,显著改进了人与计算机系统之间的互动性。自chatgpt问世以来,大型语言模型在自然语言理解和生成领域展示了突破性的成就,具备强大的语言理解和创作能力,以及丰富的常识,引领了生成式人工智能的浪潮。

2、然而,当前的大型语言模型是在大规模互联网语料库上进行训练的,具备通用领域的语言理解和生成能力。在私有领域,如涉密资料领域和商业竞争领域,这些模型的直接应用受到限制,甚至在这些私有领域,大型语言模型的局限性可能进一步放大。一方面,大型语言模型的"幻觉"现象实质上是由于训练数据与用户提问之间的领域差异导致的。私有领域数据未参与模型训练,这导致大型语言模型应用于私有领域会加重"幻觉"现象。另一方面,由于私有领域数据具有高实时性特征,而通用大型语言模本文档来自技高网...

【技术保护点】

1.一种私有领域文档问答方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定包括关键词数据库和向量数据库的私有领域知识库,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述关键词匹配结果包括所述关键词列表与所述关键词数据库中每个所述分片文档对应的至少一个关键词的关键词相似度,所述向量匹配结果包括所述提问向量和所述向量数据库中每个所述分片文档对应向量的向量相似度。

4.根据权利要求3所述的方法,其特征在于,所述根据所述关键词匹配结果和所述向量匹配结果确定与所述用户提问信息匹配的相关分片文档,包括

5....

【技术特征摘要】

1.一种私有领域文档问答方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定包括关键词数据库和向量数据库的私有领域知识库,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述关键词匹配结果包括所述关键词列表与所述关键词数据库中每个所述分片文档对应的至少一个关键词的关键词相似度,所述向量匹配结果包括所述提问向量和所述向量数据库中每个所述分片文档对应向量的向量相似度。

4.根据权利要求3所述的方法,其特征在于,所述根据所述关键词匹配结果和所述向量匹配结果确定与所述用户提问信息匹配的相关分片文档,包括:

5.根据权利要求1-4中任意一项所述的方法,其特征...

【专利技术属性】
技术研发人员:郑海涛李剑军王佳文
申请(专利权)人:北京捷报金峰数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1