PDF目录识别方法及电子设备、计算机可读存储介质技术

技术编号:28037300 阅读:16 留言:0更新日期:2021-04-09 23:19
本申请公开了一种PDF目录识别方法及电子设备、计算机可读存储介质,其中PDF目录识别方法包括:获取PDF文档的每个页面的原始文本段落集合;根据每一所述原始文本段落集合的数字队列,得到符合目录结构特征的当前文本段落集合;将所述当前文本段落集合转换成至少一个二值化矩阵;扫描每个所述二值化矩阵,得到扫描结果;根据所述扫描结果,确定当前页面为目标目录页面。根据本申请的PDF目录识别方法,能够提取PDF文件中可能包含目录信息的页面,准确识别出目录结构。

【技术实现步骤摘要】
PDF目录识别方法及电子设备、计算机可读存储介质
本申请涉及文档处理
,特别涉及一种PDF目录识别方法及电子设备、计算机可读存储介质。
技术介绍
现有对于PDF目录的提取方法是对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表;对所述交叉索引表进行检索,得到文件尾字典;对所述文件尾字典进行分析,得到键值最高权限用户对应的目录簿字典;对所述目录簿字典进行检索,获得所述PDF文档的目录。现有对于PDF目录的提取方法是基于PDF文档中存在目录字典不为空的提取,但是对于大多数PDF文档,目录字典为空,只存在纯粹的目录文本页面。
技术实现思路
本申请的目的在于至少解决现有技术中存在的技术问题之一,提供一种PDF目录识别方法,能够提取PDF文件中可能包含目录信息的页面,准确识别出目录结构。根据本申请第一方面实施例的PDF目录识别方法,包括:获取PDF文档的每个页面的原始文本段落集合;根据每一所述原始文本段落集合的数字队列,得到符合目录结构特征的当前文本段落集合;将所述当前文本段落集合转换成至少一个二值化矩阵;扫描每个所述二值化矩阵,得到扫描结果;根据所述扫描结果,确定当前页面为目标目录页面。根据本申请实施例的PDF目录识别方法,至少具有如下技术效果:提取PDF文件中可能包含目录信息的页面,针对PDF页面中的文本段落进行自定义的目录结构特征识别,通过数字队列与二值化矩阵扫描双重判定,极大提升了处理和辨别效率,能够有效和准确地识别出大部分PDF文件的目录页,尤其是对于纯粹的文本页面的目录结构能够有效与准确的进行识别。根据本申请的一些实施例,所述获取PDF文档的每个页面的原始文本段落集合包括:提取所述PDF文档的每个页面的每一行文本作为文本段落;将同一页面的全部所述文本段落设置为所述原始文本段落集合。根据本申请的一些实施例,所述获取PDF文档的每个页面的原始文本段落集合还包括:提取每一所述原始文本段落集合的每一个所述文本段落的结尾项;去除所述结尾项为非数字的所述文本段落,以更新所述原始文本段落集合。根据本申请的一些实施例,所述将所述当前文本段落集合转换成至少一个二值化矩阵包括:将所述当前文本段落集合的每一个所述文本段落进行排序,得到排序后的当前文本段落集合;将排序后的当前文本段落集合进行分类,得到至少一个子段落集合;根据每个所述子段落集合,得到至少一个所述二值化矩阵,其中,所述子段落集合与所述二值化矩阵一一对应。根据本申请的一些实施例,所述将所述当前文本段落集合的每一个所述文本段落进行排序,得到排序后的当前文本段落集合包括:提取所述当前文本段落集合的每一个所述文本段落的字体大小、字体粗细及文本段落缩进信息;根据所述字体大小、字体粗细及文本段落缩进信息,得到每一个所述文本段落的权值;根据所述权值对全部所述文本段落进行分组排序,得到排序后的当前文本段落集合。根据本申请的一些实施例,所述根据每个所述子段落集合,得到至少一个所述二值化矩阵包括:对每个所述子段落集合的每个所述文本段落进行遍历;将每个所述文本段落遍历遇到的圆点字符设置为数字1,将非圆点字符设置为数字0;将同一所述子段落集合的每个所述文本段落的遍历结果整合,得到m*n的所述二值化矩阵,其中,m为所述文本段落的长度,n为每个所述子段落集合的所述文本段落总数。根据本申请的一些实施例,所述扫描每个所述二值化矩阵得到扫描结果包括:扫描每个所述二值化矩阵的最后一列;若所述二值化矩阵的最后一列均为数字1,则扫描所述二值化矩阵的每一行;若所述二值化矩阵的每一行均符合从最后一次扫描到的数字0开始至结尾均为数字1,则确定所述二值化矩阵符合目录结构特征;若所述二值化矩阵符合目录结构特征,则得到所述扫描结果。根据本申请的一些实施例,所述PDF目录识别方法还包括:获取所述目标目录页面的所述文本段落;为每一所述文本段落设置对应的页面跳转链接。根据本申请第二方面实施例的电子设备,包括:至少一个处理器,以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述指令时实现上述第一方面所述的PDF目录识别方法。根据本申请第三方面实施例的计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述第一方面所述的PDF目录识别方法。本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明下面结合附图和实施例对本申请进一步地说明;图1为本申请实施例的PDF识别目录方法的流程示意图;图2为本申请实施例的获取当前文本段落集合的流程示意图;图3为本申请实施例的更新原始文本段落集合的流程示意图;图4为本申请实施例的获取至少一个二值化矩阵的流程示意图;图5为本申请实施例的当前文本段落集合排序的流程示意图;图6为本申请另一实施例的电子设备的示意图;图7为本申请实施例的子段落集合转换成二值化矩阵的流程示意图;图8为本申请实施例的扫描二值化矩阵的流程示意图;图9为本申请实施例的子段落集合遍历转换成二值化矩阵的示例图。具体实施方式本部分将详细描述本申请的具体实施例,本申请之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本申请的每个技术特征和整体技术方案,但其不能理解为对本申请保护范围的限制。在本申请的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。下面参考附图描述根据本申请实施例的PDF目录识别方法。如图1所示,根据本申请实施例的PDF目录识别方法,包括:S100:获取PDF文档的每个页面的原始文本段落集合;S200:根据每一原始文本段落集合的数字队列,得到符合目录结构特征的当前文本段落集合;S300:将当前文本段落集合转换成至少一个二值化矩阵;S400:扫描每个二值化矩阵得到扫描结果;S500:根据扫描结果,确定当前页面为目标目录页面。对于PDF的目录,具有两大特征:1、PDF的目录页中的每个段落结尾均为页码数,且各页码数之间一定为有序递增;2、每个目录的每个索引在目录大纲描述完后,后面都会衔接有连续的“…”。如图2所示,S200:根据每一原始文本段落集合的数字队列,得到符合目本文档来自技高网...

【技术保护点】
1.一种PDF目录识别方法,其特征在于,包括:/n获取PDF文档的每个页面的原始文本段落集合;/n根据每一所述原始文本段落集合的数字队列,得到符合目录结构特征的当前文本段落集合;/n将所述当前文本段落集合转换成至少一个二值化矩阵;/n扫描每个所述二值化矩阵,得到扫描结果;/n根据所述扫描结果,确定当前页面为目标目录页面。/n

【技术特征摘要】
1.一种PDF目录识别方法,其特征在于,包括:
获取PDF文档的每个页面的原始文本段落集合;
根据每一所述原始文本段落集合的数字队列,得到符合目录结构特征的当前文本段落集合;
将所述当前文本段落集合转换成至少一个二值化矩阵;
扫描每个所述二值化矩阵,得到扫描结果;
根据所述扫描结果,确定当前页面为目标目录页面。


2.根据权利要求1所述的PDF目录识别方法,其特征在于,所述获取PDF文档的每个页面的原始文本段落集合包括:
提取所述PDF文档的每个页面的每一行文本作为文本段落;
将同一页面的全部所述文本段落设置为所述原始文本段落集合。


3.根据权利要求2所述的PDF目录识别方法,其特征在于,所述获取PDF文档的每个页面的原始文本段落集合还包括:
提取每一所述原始文本段落集合的每一个所述文本段落的结尾项;
去除所述结尾项为非数字的所述文本段落,以更新所述原始文本段落集合。


4.根据权利要求2所述的PDF目录识别方法,其特征在于,所述将所述当前文本段落集合转换成至少一个二值化矩阵包括:
将所述当前文本段落集合的每一个所述文本段落进行排序,得到排序后的当前文本段落集合;
将排序后的当前文本段落集合进行分类,得到至少一个子段落集合;
根据每个所述子段落集合,得到至少一个所述二值化矩阵,其中,所述子段落集合与所述二值化矩阵一一对应。


5.根据权利要求4所述的PDF目录识别方法,其特征在于,所述将所述当前文本段落集合的每一个所述文本段落进行排序,得到排序后的当前文本段落集合包括:
提取所述当前文本段落集合的每一个所述文本段落的字体大小、字体粗细及文本段落缩进信息;
根据所述字体大小、字体粗细及文本段落缩进信息,得到每一个所述文本段落的权值;
根...

【专利技术属性】
技术研发人员:陈健洋
申请(专利权)人:万兴科技湖南有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1