【技术实现步骤摘要】
本申请涉及大模型检索增强生成,尤其是一种基于文章结构树从pdf文件中切分补全完整语义段落的方法。
技术介绍
1、在大模型检索增强生成(rag)场景中,从pdf文件中提取文本段落可以为大模型提供外部知识源,使它们能够生成准确且符合上下文的答案,同时能够减少模型幻觉。
2、现有技术中从pdf文件中生成段落的方法主要有以下两种:
3、1、按照文章内容顺序划分段落:
4、(1)、pdf解析:首先,使用pdf解析工具((如pypdf2、pdfminer、tika等))从pdf文件中提取文本信息,并将其转换为可处理的格式,如纯文本、html或xml。
5、(2)、句子分割:然后,通过寻找句子的边界将文本划分为单独的句子。
6、(3)、文本分段:最后,根据一定的规则将文本划分为段落。包括按照字数限制划分,或者根据关键词出现的频率划分。例如,如果一个段落中包含了大量的关键词,那么这个段落可能包含了重要的信息。
7、2、解析pdf以及分层布局信息划分段落(现有技术中最先进的方法,例如
...【技术保护点】
1.一种基于文章结构树从PDF文件中切分补全完整语义段落的方法,其特征在于,包括:
2.根据权利要求1所述的基于文章结构树从PDF文件中切分补全完整语义段落的方法,其特征在于,通过LayoutPDFReader方法将PDF文件生成文章结构树。
3.根据权利要求1所述的基于文章结构树从PDF文件中切分补全完整语义段落的方法,其特征在于,通过上下文分析、结构分析、文本内容分析和预定的规则补全所述文章结构树中缺失的父节点,包括以下方法中的至少一种:
4.根据权利要求1所述的基于文章结构树从PDF文件中切分补全完整语义段落的方法,其特征在于
...【技术特征摘要】
1.一种基于文章结构树从pdf文件中切分补全完整语义段落的方法,其特征在于,包括:
2.根据权利要求1所述的基于文章结构树从pdf文件中切分补全完整语义段落的方法,其特征在于,通过layoutpdfreader方法将pdf文件生成文章结构树。
3.根据权利要求1所述的基于文章结构树从pdf文件中切分补全完整语义段落的方法,其特征在于,通过上下文分析、结构分析、文本内容分析和预定的规则补全所述文章结构树中缺失的父节点,包括以下方法中的至少一种:
4.根据权利要求1所述的基于文章结构树从pdf文件中切分补全完整语义段落的方法,其特征在于,搜索所述待处理文章中的小标题,包括以下方法中的至少一种:
5.根据权利要求1所述的基于文章结构树从pdf文件中切分补全完整语义段落的方法,其特征在于,以所述小标题为跟节点遍历每个小标题的所有子节点,根据语义相似度进行节点的剪枝以合成完整语义段落,包括:
6.根据权利要求5所述的基于文章结构...
【专利技术属性】
技术研发人员:周济民,李笑然,
申请(专利权)人:炜呈智能电力科技杭州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。