基于文章结构树从PDF文件中切分补全完整语义段落的方法技术

技术编号：43353617 阅读：31 留言：0更新日期：2024-11-19 17:40

本申请涉及大模型检索增强生成技术领域，解决了现有技术中因忽略文本结构信息、分段规则简单、忽略小标题而导致的难以准确识别段落边界，以及无法识别段落内容中的冗余和错误信息的问题公开了一种基于文章结构树从PDF文件中切分补全完整语义段落的方法，该方法包括：根据所述PDF文件生成文章结构树，补全所述文章结构树中缺失的父节点，搜索所述PDF文件中的小标题，根据语义相似度进行节点的剪枝以合成完整语义段落，该方法能够保证段落的完整性以及结构的清晰性，同时缩短了搜索时间，过滤掉了因为文章结构树误差等原因生成的冗余信息。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大模型检索增强生成，尤其是一种基于文章结构树从pdf文件中切分补全完整语义段落的方法。

技术介绍

1、在大模型检索增强生成(rag)场景中，从pdf文件中提取文本段落可以为大模型提供外部知识源，使它们能够生成准确且符合上下文的答案，同时能够减少模型幻觉。

2、现有技术中从pdf文件中生成段落的方法主要有以下两种：

3、1、按照文章内容顺序划分段落：

4、(1)、pdf解析：首先，使用pdf解析工具((如pypdf2、pdfminer、tika等))从pdf文件中提取文本信息，并将其转换为可处理的格式，如纯文本、html或xml。

5、(2)、句子分割：然后，通过寻找句子的边界将文本划分为单独的句子。

6、(3)、文本分段：最后，根据一定的规则将文本划分为段落。包括按照字数限制划分，或者根据关键词出现的频率划分。例如，如果一个段落中包含了大量的关键词，那么这个段落可能包含了重要的信息。

7、2、解析pdf以及分层布局信息划分段落(现有技术中最先进的方法，例如：layoutpdf本文档来自技高网...

【技术保护点】

1.一种基于文章结构树从PDF文件中切分补全完整语义段落的方法，其特征在于，包括：

2.根据权利要求1所述的基于文章结构树从PDF文件中切分补全完整语义段落的方法，其特征在于，通过LayoutPDFReader方法将PDF文件生成文章结构树。

3.根据权利要求1所述的基于文章结构树从PDF文件中切分补全完整语义段落的方法，其特征在于，通过上下文分析、结构分析、文本内容分析和预定的规则补全所述文章结构树中缺失的父节点，包括以下方法中的至少一种：

4.根据权利要求1所述的基于文章结构树从PDF文件中切分补全完整语义段落的方法，其特征在于，搜索所述待处理文章...

【技术特征摘要】

1.一种基于文章结构树从pdf文件中切分补全完整语义段落的方法，其特征在于，包括：

2.根据权利要求1所述的基于文章结构树从pdf文件中切分补全完整语义段落的方法，其特征在于，通过layoutpdfreader方法将pdf文件生成文章结构树。

3.根据权利要求1所述的基于文章结构树从pdf文件中切分补全完整语义段落的方法，其特征在于，通过上下文分析、结构分析、文本内容分析和预定的规则补全所述文章结构树中缺失的父节点，包括以下方法中的至少一种：

4.根据权利要求1所述的基于文章结构树从pdf文件中切分补全完整语义段落的方法，其特征在于，搜索所述待处理文章中的小标题，包括以下方法中的至少一种：

5.根据权利要求1所述的基于文章结构树从pdf文件中切分补全完整语义段落的方法，其特征在于，以所述小标题为跟节点遍历每个小标题的所有子节点，根据语义相似度进行节点的剪枝以合成完整语义段落，包括：

6.根据权利要求5所述的基于文章结构...

【专利技术属性】
技术研发人员：周济民，李笑然，
申请(专利权)人：炜呈智能电力科技杭州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人