一种基于大模型和遗传算法的文档问答方法及系统技术方案

技术编号：40279325 阅读：17 留言：0更新日期：2024-02-02 23:07

本发明专利技术提出一种基于大模型和遗传算法的文档问答方法及系统，包括利用qlora技术和ChatGLM模型，微调生成用于提取文本知识标签、同义标签和转化文本为问题的模型；将文档分段，并通过数据预处理，将处理后的文档分别存入数据库；从不同渠道召回30个文本；采用相似度算法，并通过遗传算法优化算法的加权系数，将多路召回的30个文档经过相似度算法和加权系数进行排序，选择top3；采用文档召回率和F1值作为适应度标准，实现加权系数的自动优化；使用原始大模型，基于文档和问题生成最终的回答。本发明专利技术保证答案质量、准确性和用户满意度的同时，也具备了高度的灵活性和扩展性，能够满足不同用户和场景的多样化需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能问答，具体涉及一种基于大模型和遗传算法的文档问答方法及系统。

技术介绍

1、在当前的信息化时代，知识和信息的爆炸式增长让用户面临从海量文本文档中提取有价值信息的巨大挑战。尽管科学论文、法律文件等专业文献中蕴含着丰富的知识，但用户常常需要投入大量时间和精力进行阅读和解析，这在很多情况下是不现实的。因此，如何通过自然语言快速、准确地从复杂文档中获取答案，成为了一个迫切需要解决的问题。

2、近年来，以chatgpt为代表的大型预训练语言模型显示出了卓越的自然语言理解和生成能力。这些模型通过学习大量的无标签或弱标签文本数据，掌握了语言的通用表示和知识，表现出极高的泛化和迁移能力。然而，chatgpt作为闭源商业软件，其应用受限，不能本地训练和部署。

3、幸运的是，国内外诸如chatglm、百川、通义千问等大模型开始免费商用开源，为大模型的广泛应用奠定了基础。这些模型的开源使得企业和个人能够更灵活地利用大模型进行各种nlp任务，包括但不限于问答、摘要生成、文本分类等。

4、然而，一个核心问题仍然存在：如何有效地从拆分和分散的文档中召回与用户问题紧密相关的文本。目前的大多数方法都是基于关键词或者简单的文本匹配技术，这很难处理复杂、长篇幅的文档，也难以准确地抓取文档中的语义和上下文信息。

5、同时，多数现有系统仍然缺乏动态、自适应的能力。即使采用了先进的自然语言处理技术，也很难根据不同用户的特定需求和不断变化的信息环境做出实时、个性化的调整。

6、为解决上述问题，需

技术实现思路

1、为克服现有技术的不足，本专利技术提出一种基于大模型和遗传算法的文档问答方法及系统，保证答案质量、准确性和用户满意度的同时，也具备了高度的灵活性和扩展性，能够满足不同用户和场景的多样化需求。

2、为实现上述目的，本专利技术提出一种基于大模型和遗传算法的文档问答方法，包括：

3、步骤s1：利用qlora技术和chatglm模型，微调生成用于提取文本知识标签、同义标签和转化文本为问题的模型；

4、步骤s2：将文档分段，并通过数据预处理，将处理后的文档分别存入milvus和elasticsearch数据库；

5、步骤s3：从不同渠道召回30个文本，包括从相似问题、知识标签、同义标签和向量数据库中召回；

6、步骤s4：采用相似度算法，并通过遗传算法优化算法的加权系数，将多路召回的30个文档经过fuzzy, cosine, bm25, levenshtein等相似度算法和加权系数进行排序，选择top3；

7、步骤s5：采用文档召回率和f1值作为适应度标准，实现加权系数的自动优化；

8、步骤s6：使用原始chatglm大模型，基于优选的文档和问题生成最终的回答。

9、进一步地，步骤s1具体为：

10、步骤s11: 制造提取文本知识标签、同义标签的微调数据；

11、步骤s12: 制造文本转成问题的微调数据。

12、进一步地，步骤s2具体为：

13、步骤s21: 文档数据预处理，对pdf和docx文档格式进行文本抽取，并处理无意义符号和表格中的文字，确保语义完整性；

14、步骤s22: 文本转向量后入库，利用步骤s1中的知识标签、同义标签大模型，将分段文本转换为向量存入milvus数据库；

15、步骤s23: 存储知识标签和同义标签，利用知识标签、同义标签大模型处理文本，将结果存储到elasticsearch文档数据库；

16、步骤s24: 生成问题并入库，利用文本转成问题的大模型处理文本，将生成的问题存储到elasticsearch文档数据库。

17、进一步地，步骤s3具体为；

18、步骤s31：从储存相似问题的elasticsearch召回；

19、步骤s32：利用知识标签和同义标签从elasticsearch召回；

20、步骤s33：通过向量模型从milvus召回。

21、进一步地，步骤s4中相似度计算公式如下：

22、；

23、其中scorefuzzy表示问题和候选文档的fuzzy相似度算法的分数，scorecosine中表示问题和候选文档经过向量化之后的余弦相似计算(cosine）的分数，scorebm25中表示问题和候选文档的bm25相似度算法的分数，scorelevenshtein中表示问题和候选文档的莱文斯坦距离(levenshtein)相似度算法的分数，score表示最终的相似度分数。[0.2, 0.1, 0.4, 0.3]表示加权系数。

24、进一步地，步骤s5具体为：

25、步骤s51: 基于测试数据计算文档召回率和f1值，作为遗传算法的适应度指标；

26、步骤s52: 将初始加权系数二进制编码，准备遗传算法的选择、交叉和变异步骤；

27、步骤s53: 基于适应度，即召回率和f1值，选择加权系数种群的个体；

28、步骤s54: 增加种群多样性，满足条件时输出最佳加权系数。

29、进一步地，步骤s5中计算公式如下：

30、准确率（precision） = 相关文档总数 / 返回的结果总数 = tp / (tp + fp) *100%；

31、召回率（recall）= 相关文档总数 / 所有文档总数 = tp / (tp + fn) *100%；

32、f1值 = 准确率*召回率 *2 / (准确率 + 召回率) 。

33、进一步地，还包括步骤s7自适应微调，具体如下：

34、步骤s71：识别数据特性，分析输入数据的特点和类别，例如领域、复杂性和样式；基于数据特性选择相应的微调参数和策略；

35、步骤s72：动态调整，为每类数据设计一个动态调整机制，根据实时性能反馈自动调整微调参数；

36、步骤s73：模型评估，连续监控模型性能，通过a/b测试和其他评估技术确保微调效果。

37、进一步地，还包括步骤s8动态权重调整，具体如下：

38、步骤s81：实时反馈收集，捕获用户对检索结果的反馈，例如点击、阅读时间和用户评级；

39、步骤s82：权重更新算法，开发一个算法，根据实时反馈动态调整标签和相似度算法的权重；

40、步骤s83：权重应用，应用新的权重到召回和精排阶段，实时优化检索结果。

41、一种基于大模型和遗传算法的文档问答系统，适用于上述中任一项所述的一种基于大模型和遗传算法的文档问答方法，包括搜索扩展模块、多路召回模块和基于遗传算法优化加权系数的精排模块；

42、所述本文档来自技高网...

【技术保护点】

1.一种基于大模型和遗传算法的文档问答方法，其特征在于，包括：

2.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤S1具体为：

3.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤S2具体为：

4.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤S3具体为；

5.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤S4中相似度计算公式如下：

6.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤S5具体为：

7.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤S5中计算公式如下：

8.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，还包括步骤S7自适应微调，具体如下：

9.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，还包括步骤S8动态权重调整，具体如下：

10.

...

【技术特征摘要】

1.一种基于大模型和遗传算法的文档问答方法，其特征在于，包括：

2.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤s1具体为：

3.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤s2具体为：

4.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤s3具体为；

5.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤s4中相似度计算公式如下：

6.根据权利要求1所述的一种基于大模型和遗传算法的文档问答方法，其特征在于，步骤...

【专利技术属性】
技术研发人员：罗剑锋，宁煌，马驰，林文星，
申请(专利权)人：浩鲸云计算科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人