【技术实现步骤摘要】
本申请涉及计算机,特别是涉及一种图片型pdf的处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
1、为了实现技术标准的智能化应用,通过建立技术标准知识库、基于大语言模型实现检索增强生成(rag)是当前主要技术趋势。目前各类技术标准电子文件基本为图片型pdf文件,传统pdf转换产品通过ocr(optical character recognition,光学字符识别)技术将图片型pdf文件转换为文本文件(即word文件)。由于ocr技术的解析质量不高,将导致图片型pdf文件的识别精度低,影响技术标准的智能应用效果。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种图片型pdf的处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,能够保留图表原始信息、优化文本转换结果、提升文本内容质量。
2、第一方面,本申请提供了一种图片型pdf的处理方法,包括:
3、将图片型pdf文件,转换为文本型pdf文件;
4、从文本型p
...【技术保护点】
1.一种图片型PDF的处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述从所述文本型PDF文件中分别识别有效内容页面和图表页面,生成有效内容文件和图表页面文件,包括:
3.根据权利要求1所述的方法,其特征在于,所述识别所述图表页面文件中每个图表页面的图表区域,包括:
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述对所述文本文件进行精化处理,得到目标文本文件,包括:
5.根据权利要求4所述的方法,其特征在于,所述为所述正文部分和所述附录部分构建节内层次结构,生成层次标志信息,
...
【技术特征摘要】
1.一种图片型pdf的处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述从所述文本型pdf文件中分别识别有效内容页面和图表页面,生成有效内容文件和图表页面文件,包括:
3.根据权利要求1所述的方法,其特征在于,所述识别所述图表页面文件中每个图表页面的图表区域,包括:
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述对所述文本文件进行精化处理,得到目标文本文件,包括:
5.根据权利要求4所述的方法,其特征在于,所述为所述正文部分和所述附录部分构建节内层次结构,生成层次标志信息,包括:
6.根据权利要求4所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:韩吉双,曹锋,连智杰,张岩,李晓伟,杨同盟,施凯健,王海波,英鹏涛,黄宇飞,喻皓星,张元进,郑晶星,杨立波,
申请(专利权)人:南方电网调峰调频发电有限公司工程建设管理分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。