一种PDF文件自动去除行号的方法技术

技术编号:40537226 阅读:34 留言:0更新日期:2024-03-01 13:59
本发明专利技术利用检测模块读取PDF文件,获取PDF文件当中的数据,创建模板PDF并将模板PDF存储至数据存储模块中;获取至少一个行号文本框的坐标信息和至少一个正文文本框的坐标信息;根据行号文本框和正文文本框的坐标信息,获取PDF文件行号文本框与正文文本框之间的中轴线的位置;计算填充行号文本框的空白元素宽度。该PDF文件自动去除行号的方法,PDF文件每一页每个文本框的坐标位置信息进行识别和提取,能够实现对PDF文件的文本框定位和信息提取,方便对行号文本框的识别和定位,通过判断文本框是否为行号文本框,通过判断文本框内的文字是否全部为数字,判断文本框是否处于页面左侧或右侧一定范围之内,实现了对行号文本框的自动化判定与删除。

【技术实现步骤摘要】

本专利技术涉及计算机技术处理领域,具体为一种pdf文件自动去除行号的方法。


技术介绍

1、可携带文件格式,亦称“pdf(portabledocumentformat)格式”,它是一种跨操作系统平台的文件格式,可将文字、字体、图形、图像、色彩、版式及与印刷设备相关的参数等封装在一个文件中,在网络传输、打印和制版输出中保持页面元素不变,还可包含超文本链接、音频和视频等电子信息。集成度和安全可靠性都较高。

2、当前学术研究领域经常需要阅读pdf格式的论文和书籍,在pdf文档中,经常会出现行号,有时候行号可能会干扰到读者的阅读,通常的解决方法是手动删除行号或者重新制作pdf文件。但是,手动删除行号的方法非常耗时,而重新制作pdf文件的方法则需要行号信息的二次处理,也会增加工作量。为了提高阅读效率和便利性。

3、现有的解决方法主要为手动删除行号或重新制作pdf文件,这些方法都需要耗费大量时间和精力,并且需要一定的技术基础。同时重新制作pdf文件还需要处理行号信息,增加了二次处理的流程,增加了工作量。因此,现有技术存在以下不足,解决方法耗时费力本文档来自技高网...

【技术保护点】

1.一种PDF文件自动去除行号的方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种PDF文件自动去除行号的方法,其特征在于:所述步骤S2中,对行号文本框和正文文本框的坐标信息的获取,具体包括以下步骤:

3.根据权利要求2所述的一种PDF文件自动去除行号的方法,其特征在于:所述步骤S3中,对中轴线的获取,具体包括以下步骤:

4.根据权利要求3所述的一种PDF文件自动去除行号的方法,其特征在于:在步骤S3中,若L大于r,则中轴线横坐标M为-1,则说明该文档内容异常,终止处理。

5.根据权利要求4所述的一种PDF文件自动去除行号的方法...

【技术特征摘要】

1.一种pdf文件自动去除行号的方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种pdf文件自动去除行号的方法,其特征在于:所述步骤s2中,对行号文本框和正文文本框的坐标信息的获取,具体包括以下步骤:

3.根据权利要求2所述的一种pdf文件自动去除行号的方法,其特征在于:所述步骤s3中,对中轴线的获取,具体包括以下步骤:

4.根据权利要求3所述的一种pdf文件自动去除行号的方法,其特征在于:在步骤s3中,若l大于r,则中轴线横坐标m为-1,则说明该文档内容异常,终止处理。

5.根据权利要求4所述的一种pdf文件自动去除行号的方法,其特征在于:所述步骤s4中...

【专利技术属性】
技术研发人员:周玉邓彪
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1