图片型PDF的处理方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号:46629147 阅读:1 留言:0更新日期:2025-10-14 21:27
本申请涉及一种图片型PDF的处理方法、装置、设备、存储介质和程序产品。包括:将图片型PDF文件,转换为文本型PDF文件;识别有效内容页面和图表页面,生成有效内容文件和图表页面文件;识别每个图表页面的图表区域,根据图表区域提取图表插图,并从每个图表页面中去除相应的图表区域,输出图表插图文件和去除图表页面文件;根据去除图表页面文件,对有效内容文件中的图表页面进行替换,生成文字内容PDF文件;对文字内容PDF文件转换生成的文本文件进行精化处理,得到目标文本文件;将目标文本文件和图表插图文件,作为图片型PDF文件的处理结果。采用本方法能够保留图表原始信息、优化文本转换结果、提升文本内容质量。

【技术实现步骤摘要】

本申请涉及计算机,特别是涉及一种图片型pdf的处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、为了实现技术标准的智能化应用,通过建立技术标准知识库、基于大语言模型实现检索增强生成(rag)是当前主要技术趋势。目前各类技术标准电子文件基本为图片型pdf文件,传统pdf转换产品通过ocr(optical character recognition,光学字符识别)技术将图片型pdf文件转换为文本文件(即word文件)。由于ocr技术的解析质量不高,将导致图片型pdf文件的识别精度低,影响技术标准的智能应用效果。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种图片型pdf的处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,能够保留图表原始信息、优化文本转换结果、提升文本内容质量。

2、第一方面,本申请提供了一种图片型pdf的处理方法,包括:

3、将图片型pdf文件,转换为文本型pdf文件;

4、从文本型pdf文件中分别识别有本文档来自技高网...

【技术保护点】

1.一种图片型PDF的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从所述文本型PDF文件中分别识别有效内容页面和图表页面,生成有效内容文件和图表页面文件,包括:

3.根据权利要求1所述的方法,其特征在于,所述识别所述图表页面文件中每个图表页面的图表区域,包括:

4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述对所述文本文件进行精化处理,得到目标文本文件,包括:

5.根据权利要求4所述的方法,其特征在于,所述为所述正文部分和所述附录部分构建节内层次结构,生成层次标志信息,包括:

...

【技术特征摘要】

1.一种图片型pdf的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从所述文本型pdf文件中分别识别有效内容页面和图表页面,生成有效内容文件和图表页面文件,包括:

3.根据权利要求1所述的方法,其特征在于,所述识别所述图表页面文件中每个图表页面的图表区域,包括:

4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述对所述文本文件进行精化处理,得到目标文本文件,包括:

5.根据权利要求4所述的方法,其特征在于,所述为所述正文部分和所述附录部分构建节内层次结构,生成层次标志信息,包括:

6.根据权利要求4所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:韩吉双曹锋连智杰张岩李晓伟杨同盟施凯健王海波英鹏涛黄宇飞喻皓星张元进郑晶星杨立波
申请(专利权)人:南方电网调峰调频发电有限公司工程建设管理分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1