一种基于大模型的文档智能问答方法技术

技术编号：41135296 阅读：4 留言：0更新日期：2024-04-30 18:06

一种基于大模型的文档智能问答方法，包括：LLM模型训练；知识库的创建；将采集到的知识数据，处理成结构化的知识条形式，形成知识库；知识的向量化；将知识库中的知识进行向量化处理，经过用户输入的内容进行向量化的表示；答案的提取；通过语义匹配度计算、查询以及推理，找出与用户输入的内容最匹配、最准确的答案；简报生成；用户通过提供相关的详细信息，以输出详细的报告。本发明专利技术通过把私有知识文档分割并转化为向量表示，然后通过向量检索的方式进行召回，再将这些召回的信息作为上下文输入到大语言模型中进行综述归纳。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种基于大模型的文档智能问答方法。

技术介绍

1、近年来，智能技术的迅猛发展和广泛应用已经深刻改变了人们的生活和工作方式。在这个背景下，智能文档问答领域的需求变得越来越迫切。随着大语言模型（largelanguage model，llm）技术的不断进步，其应用领域不断扩展并呈现出一种日益增长的趋势。

2、智能文档问答系统作为一种创新工具，融合了自然语言处理、机器学习和知识图谱等先进技术，致力于从文档中快速准确地提取、理解和应用信息，帮助用户提高工作效率和准确性。然而，尽管文档问答系统在近年来得到了广泛的关注和研究，但仍然存在一些问题需要解决。其中最主要的问题之一是语义理解的不准确性。由于文档中包含了大量的多义性词汇、专业术语和语法结构，使得传统的基于规则的方法难以实现对文档内容的准确理解。此外，由于不同领域之间的差异性和多样性，针对特定领域的文档问答系统的设计和实现也面临着巨大的挑战。

技术实现思路

1、针对现有技术的不足，本专利技术提供了一种基于大模型的文档智能问答方法，克服了现有技术的不足，通过把私有知识文档分割并转化为向量表示，然后通过向量检索的方式进行召回，再将这些召回的信息作为上下文输入到大语言模型中进行综述归纳。

2、为实现以上目的，本专利技术通过以下技术方案予以实现：

3、一种基于大模型的文档智能问答方法，包括以下步骤：

4、步骤s1：llm模型训练；从大量的训练数据中学习到语言的概率分布

5、步骤s2：知识库的创建；将采集到的知识数据，处理成结构化的知识条形式，形成知识库；

6、步骤s3：知识的向量化；将知识库中的知识进行向量化处理，经过用户输入的内容进行向量化的表示，用于后续对知识库的内容进行匹配；

7、步骤s4：答案的提取；通过语义匹配度计算、查询以及推理，找出与用户输入的内容最匹配、最准确的答案；

8、步骤s5：简报生成；用户通过提供相关的详细信息，以输出详细的报告，并根据用户的需求进行定制和优化报告。

9、优选地，所述步骤s1具体包括以下步骤：

10、步骤s11：收集数据；在训练llm模型之前，收集大量的文本数据作为训练样本；

11、步骤s12：模型选择和配置，选择基于深度学习的循环神经网络模型作为基础架构；

12、步骤s13：模型训练，将收集到的文本数据进行预处理，通过步骤s12前一步确定的模型架构和配置，将预处理后的文本数据输入到模型中进行训练；

13、步骤s14：模型评估,在训练过程中，定期对模型进行评估，以确保其生成的文本质量和语义的准确性。

14、优选地，所述步骤s2具体包括以下步骤：

15、步骤s21：创建知识库；

16、步骤s22：向知识库上传各种类型的文件；

17、步骤s23：如果步骤s22中上传的文件中包含压缩包，首先对压缩包进行解压，并将解压出的实体文件保存在文件存储的临时目录中；

18、步骤s24：文件的预处理，根据不同文件的类型进行不同的解析操作，再进行知识向量化，并进行存储供进一步使用。

19、优选地，所述步骤s24具体包括：

20、对于文本文件，直接进行知识的向量化并将向量化结果进行存储；对于图像文件，调用光学字符识别引擎将图像中的文本内容转换为文本信息，然后再进行知识向量化；对于音频文件，调用自动语音识别引擎将音频内容转换为文本信息，然后再进行知识向量化；对于html文件，先进行html标签的解析，提取出文本内容后再进行文本的向量化。

21、优选地，所述步骤s3具体包括以下步骤：

22、步骤s31：对知识进行拆分，把原始的非结构化的文本划分为多个较小的文本片段，以确保向量化过程语义的完整性并把原始文档转换为适合向量化处理的格式；

23、步骤s32：文本向量化，使用词嵌入技术，将文本表示为高维空间中的向量；

24、步骤s33：将文本向量化后的结果可以写入向量数据库进行存储；

25、步骤s34：对用户输入内容进行向量化的表示，以便进行后续对知识库的内容进行匹配。

26、优选地，所述步骤s4具体包括以下步骤：

27、步骤s41：相似度的匹配；比较用户的问题和知识库中的每个文档的向量表示，计算它们之间的相似度；将相似度得分大于某个阈值的文档段落作为索引的结果，以找到与用户问题最相似的一个或者多个文档；

28、步骤s42：将这些文档和用户输入的问题一起提交给大语言模型进行处理。

29、优选地，所述步骤s5具体包括以下步骤：

30、步骤s51：用户指定任务描述、选择的模板、需要生成的段落和标题；再根据指定的内容以及对于用户问题生成的答案，输出一份详细的报告；

31、步骤s52：报告生成完成后，对报告进行审查，以确保报告的准确性和完整性；

32、步骤s53：如果用户在报告中发现了任何问题或错误，可以随时进行反馈，再根据用户的反馈进行相应的调整，以确保报告的准确性。

33、优选地，还包括步骤s6：回答结果的反馈和改进；具体包括以下步骤：

34、步骤s61：在对话结束后，可以对此次对话进行打分，以反映模型的回答是否满足期望；

35、步骤s62：打分完成后可以通过标签反馈回答的不足之处；

36、步骤s63：可在输入框中提交正确答案，或者修改意见，再根据输入信息以调整下次的回答。

37、本专利技术提供了一种基于大模型的文档智能问答方法。具备以下有益效果：通过把私有知识文档分割并转化为向量表示，然后通过向量检索的方式进行召回，再将这些召回的信息作为上下文输入到大语言模型中进行综述归纳，提供更加人性化的服务体验；并且可以基于特定领域进行了微调，扩大模型知识的覆盖范围，满足不同特定领域的需求，而且，不需要人工进行知识库的维护。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的文档智能问答方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于大模型的文档智能问答方法，其特征在于：所述步骤S1具体包括以下步骤：

3.根据权利要求1所述的一种基于大模型的文档智能问答方法，其特征在于：所述步骤S2具体包括以下步骤：

4.根据权利要求1所述的一种基于大模型的文档智能问答方法，其特征在于：所述步骤S24具体包括：

5.根据权利要求1所述的一种基于大模型的文档智能问答方法，其特征在于：所述步骤S3具体包括以下步骤：

6.根据权利要求1所述的一种基于大模型的文档智能问答方法，其特征在于：所述步骤S4具体包括以下步骤：

7.根据权利要求1所述的一种基于大模型的文档智能问答方法，其特征在于：所述步骤S5具体包括以下步骤：

8.根据权利要求1所述的一种基于大模型的文档智能问答方法，其特征在于：还包括步骤S6：回答结果的反馈和改进；具体包括以下步骤：

【技术特征摘要】

1.一种基于大模型的文档智能问答方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于大模型的文档智能问答方法，其特征在于：所述步骤s1具体包括以下步骤：

3.根据权利要求1所述的一种基于大模型的文档智能问答方法，其特征在于：所述步骤s2具体包括以下步骤：

4.根据权利要求1所述的一种基于大模型的文档智能问答方法，其特征在于：所述步骤s24具体包括：

5.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员：程俊，李文飞，
申请(专利权)人：写逸网络科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人