PDF目录识别方法及电子设备、计算机可读存储介质技术

技术编号：28037300 阅读：34 留言：0更新日期：2021-04-09 23:19

本申请公开了一种PDF目录识别方法及电子设备、计算机可读存储介质，其中PDF目录识别方法包括：获取PDF文档的每个页面的原始文本段落集合；根据每一所述原始文本段落集合的数字队列，得到符合目录结构特征的当前文本段落集合；将所述当前文本段落集合转换成至少一个二值化矩阵；扫描每个所述二值化矩阵，得到扫描结果；根据所述扫描结果，确定当前页面为目标目录页面。根据本申请的PDF目录识别方法，能够提取PDF文件中可能包含目录信息的页面，准确识别出目录结构。

全部详细技术资料下载

【技术实现步骤摘要】
PDF目录识别方法及电子设备、计算机可读存储介质
本申请涉及文档处理
，特别涉及一种PDF目录识别方法及电子设备、计算机可读存储介质。
技术介绍
现有对于PDF目录的提取方法是对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；对所述交叉索引表进行检索，得到文件尾字典；对所述文件尾字典进行分析，得到键值最高权限用户对应的目录簿字典；对所述目录簿字典进行检索，获得所述PDF文档的目录。现有对于PDF目录的提取方法是基于PDF文档中存在目录字典不为空的提取，但是对于大多数PDF文档，目录字典为空，只存在纯粹的目录文本页面。
技术实现思路
本申请的目的在于至少解决现有技术中存在的技术问题之一，提供一种PDF目录识别方法，能够提取PDF文件中可能包含目录信息的页面，准确识别出目录结构。根据本申请第一方面实施例的PDF目录识别方法，包括：获取PDF文档的每个页面的原始文本段落集合；根据每一所述原始文本段落集合的数字队列，得到符合目录结构特征的当前文本段落集合；将所述当前...

【技术保护点】
1.一种PDF目录识别方法，其特征在于，包括：/n获取PDF文档的每个页面的原始文本段落集合；/n根据每一所述原始文本段落集合的数字队列，得到符合目录结构特征的当前文本段落集合；/n将所述当前文本段落集合转换成至少一个二值化矩阵；/n扫描每个所述二值化矩阵，得到扫描结果；/n根据所述扫描结果，确定当前页面为目标目录页面。/n

【技术特征摘要】
1.一种PDF目录识别方法，其特征在于，包括：
获取PDF文档的每个页面的原始文本段落集合；
根据每一所述原始文本段落集合的数字队列，得到符合目录结构特征的当前文本段落集合；
将所述当前文本段落集合转换成至少一个二值化矩阵；
扫描每个所述二值化矩阵，得到扫描结果；
根据所述扫描结果，确定当前页面为目标目录页面。

2.根据权利要求1所述的PDF目录识别方法，其特征在于，所述获取PDF文档的每个页面的原始文本段落集合包括：
提取所述PDF文档的每个页面的每一行文本作为文本段落；
将同一页面的全部所述文本段落设置为所述原始文本段落集合。

3.根据权利要求2所述的PDF目录识别方法，其特征在于，所述获取PDF文档的每个页面的原始文本段落集合还包括：
提取每一所述原始文本段落集合的每一个所述文本段落的结尾项；
去除所述结尾项为非数字的所述文本段落，以更新所述原始文本段落集合。

4.根据权利要求2所述的PDF目录识别方法，其特征在于，所述将所述当前文本段落集合转换成至少一个二值化矩阵包括：
将所述当前文本段落集合的每一个所述文本段落进行排序，得到排序后的当前文本段落集合；
将排序后的当前文本段落集合进行分类，得到至少一个子段落集合；
根据每个所述子段落集合，得到至少一个所述二值化矩阵，其中，所述子段落集合与所述二值化矩阵一一对应。

5.根据权利要求4所述的PDF目录识别方法，其特征在于，所述将所述当前文本段落集合的每一个所述文本段落进行排序，得到排序后的当前文本段落集合包括：
提取所述当前文本段落集合的每一个所述文本段落的字体大小、字体粗细及文本段落缩进信息；
根据所述字体大小、字体粗细及文本段落缩进信息，得到每一个所述文本段落的权值；
根...

【专利技术属性】
技术研发人员：陈健洋，
申请(专利权)人：万兴科技湖南有限公司，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人