【技术实现步骤摘要】
PDF目录识别方法及电子设备、计算机可读存储介质
本申请涉及文档处理
,特别涉及一种PDF目录识别方法及电子设备、计算机可读存储介质。
技术介绍
现有对于PDF目录的提取方法是对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表;对所述交叉索引表进行检索,得到文件尾字典;对所述文件尾字典进行分析,得到键值最高权限用户对应的目录簿字典;对所述目录簿字典进行检索,获得所述PDF文档的目录。现有对于PDF目录的提取方法是基于PDF文档中存在目录字典不为空的提取,但是对于大多数PDF文档,目录字典为空,只存在纯粹的目录文本页面。
技术实现思路
本申请的目的在于至少解决现有技术中存在的技术问题之一,提供一种PDF目录识别方法,能够提取PDF文件中可能包含目录信息的页面,准确识别出目录结构。根据本申请第一方面实施例的PDF目录识别方法,包括:获取PDF文档的每个页面的原始文本段落集合;根据每一所述原始文本段落集合的数字队列,得到符合目录结构特征的当前文本段落集合;将所述当前 ...
【技术保护点】
1.一种PDF目录识别方法,其特征在于,包括:/n获取PDF文档的每个页面的原始文本段落集合;/n根据每一所述原始文本段落集合的数字队列,得到符合目录结构特征的当前文本段落集合;/n将所述当前文本段落集合转换成至少一个二值化矩阵;/n扫描每个所述二值化矩阵,得到扫描结果;/n根据所述扫描结果,确定当前页面为目标目录页面。/n
【技术特征摘要】
1.一种PDF目录识别方法,其特征在于,包括:
获取PDF文档的每个页面的原始文本段落集合;
根据每一所述原始文本段落集合的数字队列,得到符合目录结构特征的当前文本段落集合;
将所述当前文本段落集合转换成至少一个二值化矩阵;
扫描每个所述二值化矩阵,得到扫描结果;
根据所述扫描结果,确定当前页面为目标目录页面。
2.根据权利要求1所述的PDF目录识别方法,其特征在于,所述获取PDF文档的每个页面的原始文本段落集合包括:
提取所述PDF文档的每个页面的每一行文本作为文本段落;
将同一页面的全部所述文本段落设置为所述原始文本段落集合。
3.根据权利要求2所述的PDF目录识别方法,其特征在于,所述获取PDF文档的每个页面的原始文本段落集合还包括:
提取每一所述原始文本段落集合的每一个所述文本段落的结尾项;
去除所述结尾项为非数字的所述文本段落,以更新所述原始文本段落集合。
4.根据权利要求2所述的PDF目录识别方法,其特征在于,所述将所述当前文本段落集合转换成至少一个二值化矩阵包括:
将所述当前文本段落集合的每一个所述文本段落进行排序,得到排序后的当前文本段落集合;
将排序后的当前文本段落集合进行分类,得到至少一个子段落集合;
根据每个所述子段落集合,得到至少一个所述二值化矩阵,其中,所述子段落集合与所述二值化矩阵一一对应。
5.根据权利要求4所述的PDF目录识别方法,其特征在于,所述将所述当前文本段落集合的每一个所述文本段落进行排序,得到排序后的当前文本段落集合包括:
提取所述当前文本段落集合的每一个所述文本段落的字体大小、字体粗细及文本段落缩进信息;
根据所述字体大小、字体粗细及文本段落缩进信息,得到每一个所述文本段落的权值;
根...
【专利技术属性】
技术研发人员:陈健洋,
申请(专利权)人:万兴科技湖南有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。