PDF文档可导航目录提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40283358 阅读:33 留言:0更新日期:2024-02-07 20:37
为实现可导航的PDF文档的目录提取,保证目录的准确性,并提供快速跳转功能,本发明专利技术提出一种PDF文档可导航目录提取方法、装置、电子设备及存储介质,所述可导航目录提取方法采用如下步骤:查找PDF文档的目录页面;对目录所在页面进行目录标题和目录页码提取;将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;对所有页面图片的页码进行识别;基于页码差对图片页码进行的二次校验和修正;将目录项与导航页码进行匹配与关联,获得所有目录标题、目录页码、导航页码;输出可导航的PDF文档目录。采用本发明专利技术技术方案可提升PDF文档目录识别准确率,帮助用户快速定位PDF文档目录内容。

【技术实现步骤摘要】

本专利技术涉及文档数据处理,特别是一种pdf文档可导航目录提取方法、装置、电子设备及存储介质。


技术介绍

1、数字化转型是当前经济社会发展的一个重要趋势,随着新一代信息技术的发展和国家政策的大力支持,越来越多企业建设数字化平台以提高生产效率和质量。数字化转型的核心内容之一是数据资源的整合与利用,其中包含对大量电子文档的处理和使用。例如:电子图档中心,提供工程档案、图档资料的存储、检索、在线查阅;项目管理平台,提供各类项目文档的整合管理与关键信息的提取。

2、当前,pdf(portable document format,便携式文档格式)是处理和传输电子文档的主要格式之一。由于pdf文档制作方式不同,存在大量pdf文档无法实现点击目录跳转到对应内容的页面,例如:目录没有设置内容链接的pdf文档,目录无法跳转;传统纸质资料扫描形成的pdf文档,无法读取目录内容,更无法实现跳转。此类pdf文档需要人工查找内容,耗费时间,在查找的过程中,由于pdf文档除了目录包含的内容外,还可能包含封面、说明页、空白页、目录页等不在目录列表中内容,使得目录页码(即目录本文档来自技高网...

【技术保护点】

1.一种PDF文档可导航目录提取方法,其特征在于包括如下步骤:

2.如权利要求1所述的PDF文档可导航目录提取方法,其特征在于,所述查找PDF文档目录页面包括如下方法之任一种:

3.如权利要求1所述的PDF文档可导航目录提取方法,其特征在于,所述基于页码差对图片页码进行的二次校验和修正包括如下步骤:

4.一种PDF文档可导航目录提取装置,其特征在于包括:

5.如权利要求4所述的PDF文档可导航目录提取装置,其特征在于:

6.如权利要求4所述的PDF文档可导航目录提取装置,其特征在于,所述基页码校验与修正模块包括:

7...

【技术特征摘要】

1.一种pdf文档可导航目录提取方法,其特征在于包括如下步骤:

2.如权利要求1所述的pdf文档可导航目录提取方法,其特征在于,所述查找pdf文档目录页面包括如下方法之任一种:

3.如权利要求1所述的pdf文档可导航目录提取方法,其特征在于,所述基于页码差对图片页码进行的二次校验和修正包括如下步骤:

4.一种pdf文档可导航目录提取装置,其特征在于包括...

【专利技术属性】
技术研发人员:邓新星程斯静顾丹鹏谢世超邬远祥唐海涛
申请(专利权)人:浙江华东工程数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1