【技术实现步骤摘要】
本专利技术属于智能问答,特别涉及一种针对含表格文档的智能问答方法及系统。
技术介绍
1、检索增强生成(rag)在解决大语言模型所面临的挑战方面取得了显著成功,而无需对模型进行重新训练。通过引用外部知识库,rag能够改进llm的输出,有效缓解了“幻觉”、缺乏领域特定知识以及信息过时等问题。然而,不同表格之间复杂的关系结构为rag系统带来了挑战。当前rag在回答带有表格文档时结果往往不甚理想,主要存在以下问题:
2、(1)对复杂表格的结构解析不好,在遇到嵌套表格等较为复杂的表格类型时,直接转化为文本给大语言模型处理会导致大语言模型错误的处理相关数据,从而导致结果错误。(2)检索到的表格文本片段往往是孤立的,缺乏上下文联系,难以提供对整个文档的全局理解,导致大语言模型难以有效地整合这些信息以生成准确的答案。(3)传统的检索增强生成(rag)方法在处理复杂问题,尤其是多跳问题时,存在显著的局限性。这些方法通常依赖于单轮检索,即仅使用用户查询或问题作为输入来检索知识。在面对需要多步推理和复杂信息整合的多跳问题时,往往会失败。例如,对于
...【技术保护点】
1.一种针对含表格文档的智能问答方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种针对含表格文档的智能问答方法,其特征在于,所述数据预处理具体包括以下操作:
3.根据权利要求2所述的一种针对含表格文档的智能问答方法,其特征在于,所述步骤3具体实现过程如下:
4.根据权利要求3所述的一种针对含表格文档的智能问答方法,其特征在于,所述预先设置的规则具体为:首先计算单元格之间的水平间距和垂直间距;若水平间距的平均值大于垂直间距,则判断为纵向排列;反之,则为横向排列;然后检查同一行或同一列中单元格的文本格式是否一致,若同一列的文
...【技术特征摘要】
1.一种针对含表格文档的智能问答方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种针对含表格文档的智能问答方法,其特征在于,所述数据预处理具体包括以下操作:
3.根据权利要求2所述的一种针对含表格文档的智能问答方法,其特征在于,所述步骤3具体实现过程如下:
4.根据权利要求3所述的一种针对含表格文档的智能问答方法,其特征在于,所述预先设置的规则具体为:首先计算单元格之间的水平间距和垂直间距;若水平间距的平均值大于垂直间距,则判断为纵向排列;反之,则为横向排列;然后检查同一行或同一列中单元格的文本格式是否一致,若同一列的文本格式一致,则...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。