一种针对含表格文档的智能问答方法及系统技术方案

技术编号:46064927 阅读:11 留言:0更新日期:2025-08-11 15:51
本发明专利技术公开了一种针对含表格文档的智能问答方法及系统,所述方法首先获取文档,对文档进行数据预处理,得到预处理后的表格D和文本数据F。其次通过大语言模型,对表格数据进行处理,分别得到表格节点和表格实体节点。然后将文本数据F按照段落进行切割,对每一段文本通过嵌入大语言模型B生成嵌入,生成文本节点,基于文本节点、表格节点和表格实体节点,通过递归构建知识图谱。最后根据知识图谱,基于迭代检索优化用户查询和最大化检索信息;将相关文本和用户查询,构建为结构化信息返回给大模型M,生成回答。本发明专利技术能够更好的处理多种形式的文档,在进行针对含表格文档的智能问答时精度更高。

【技术实现步骤摘要】

本专利技术属于智能问答,特别涉及一种针对含表格文档的智能问答方法及系统


技术介绍

1、检索增强生成(rag)在解决大语言模型所面临的挑战方面取得了显著成功,而无需对模型进行重新训练。通过引用外部知识库,rag能够改进llm的输出,有效缓解了“幻觉”、缺乏领域特定知识以及信息过时等问题。然而,不同表格之间复杂的关系结构为rag系统带来了挑战。当前rag在回答带有表格文档时结果往往不甚理想,主要存在以下问题:

2、(1)对复杂表格的结构解析不好,在遇到嵌套表格等较为复杂的表格类型时,直接转化为文本给大语言模型处理会导致大语言模型错误的处理相关数据,从而导致结果错误。(2)检索到的表格文本片段往往是孤立的,缺乏上下文联系,难以提供对整个文档的全局理解,导致大语言模型难以有效地整合这些信息以生成准确的答案。(3)传统的检索增强生成(rag)方法在处理复杂问题,尤其是多跳问题时,存在显著的局限性。这些方法通常依赖于单轮检索,即仅使用用户查询或问题作为输入来检索知识。在面对需要多步推理和复杂信息整合的多跳问题时,往往会失败。例如,对于需要从多个文档中提取本文档来自技高网...

【技术保护点】

1.一种针对含表格文档的智能问答方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对含表格文档的智能问答方法,其特征在于,所述数据预处理具体包括以下操作:

3.根据权利要求2所述的一种针对含表格文档的智能问答方法,其特征在于,所述步骤3具体实现过程如下:

4.根据权利要求3所述的一种针对含表格文档的智能问答方法,其特征在于,所述预先设置的规则具体为:首先计算单元格之间的水平间距和垂直间距;若水平间距的平均值大于垂直间距,则判断为纵向排列;反之,则为横向排列;然后检查同一行或同一列中单元格的文本格式是否一致,若同一列的文本格式一致,则是纵向...

【技术特征摘要】

1.一种针对含表格文档的智能问答方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对含表格文档的智能问答方法,其特征在于,所述数据预处理具体包括以下操作:

3.根据权利要求2所述的一种针对含表格文档的智能问答方法,其特征在于,所述步骤3具体实现过程如下:

4.根据权利要求3所述的一种针对含表格文档的智能问答方法,其特征在于,所述预先设置的规则具体为:首先计算单元格之间的水平间距和垂直间距;若水平间距的平均值大于垂直间距,则判断为纵向排列;反之,则为横向排列;然后检查同一行或同一列中单元格的文本格式是否一致,若同一列的文本格式一致,则...

【专利技术属性】
技术研发人员:徐小良傅运强
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1