识别PDF文件中文本框的方法、装置及计算机设备及存储介质制造方法及图纸

技术编号：28502730 阅读：14 留言：0更新日期：2021-05-19 22:49

本发明专利技术实施例公开了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质，其中方法包括获取目标PDF文件，并从所述目标PDF文件中获取目标对象；解析所述目标对象以获取所述目标对象的形状，并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中，其中，所述预设图形集合包括多个对应不同形状的子集合；对所述预设图形集合进行处理以获得目标预设图形集合；解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。本发明专利技术能够识别并提取PDF文件中的文本框。别并提取PDF文件中的文本框。别并提取PDF文件中的文本框。

全部详细技术资料下载

【技术实现步骤摘要】
识别PDF文件中文本框的方法、装置及计算机设备及存储介质

[0001]本专利技术涉及文档处理
，尤其涉及一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质。

技术介绍

[0002]PDF(Portable Document Format)是一种电子文档格式，是一种较为理想的用于电子阅读的格式。但是PDF文件并不支持编辑，所以大多数时候，需要将DPF文件转换成其它易于编辑的格式的文件，例如Word和PPT。现有的技术手段通常都是直接将PDF文件转换成其它格式的文件，其在转换的过程中无法识别PDF文件中的文本框信息，但是PDF文件是一种板式文件，其主要是由互相独立的文本、图片以及路径等信息组合而成，并不包含文本框信息，而Word和PPT等文件是包含有文本框信息的，因而当将PDF文件转换成其它格式的文件时候，会丢失文本框信息，导致文件显示异常，无法进行编辑。

技术实现思路

[0003]本专利技术实施例提供了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质，可以识别PDF文件中的文本框，提高使用者的体验。
[0004]第一方面，本专利技术实施例提供了一种识别PDF文件中文本框的方法，该方法具体包括：获取目标PDF文件，并从所述目标PDF文件中获取目标对象；解析所述目标对象以获取所述目标对象的形状，并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中，其中，所述预设图形集合包括多个对应不同形状的子集合；对所述预设图形集合进行处理以获得目标预设图形集合；解析...

【技术保护点】

【技术特征摘要】
1.一种识别PDF文件中文本框的方法，其特征在于，所述方法包括：获取目标PDF文件，并从所述目标PDF文件中获取目标对象；解析所述目标对象以获取所述目标对象的形状，并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中，其中，所述预设图形集合包括多个对应不同形状的子集合；对所述预设图形集合进行处理以获得目标预设图形集合；解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。2.如权利要求1所述的识别PDF文件中文本框的方法，其特征在于，所述解析所述目标对象以获取所述目标对象的形状，并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中的步骤，包括：解析所述目标对象并判断所述目标对象的形状；若所述目标对象的形状为矩形，则将所述目标对象归类至所述预设图形集合中的矩形集合；若所述目标对象为包含线条的非封闭图形，则将所述目标对象归类至所述预设图形集合中的线条集合；若所述目标对象不为矩形且不为包含线条的非封闭图形，则将所述目标对象归类至所述预设图形集合中的其它图形集合。3.如权利要求2所述的识别PDF文件中文本框的方法，其特征在于，所述若所述目标对象为包含线条的非封闭图形，则将所述目标对象归类至所述预设图形集合中的线条集合的步骤之后，还包括：读取所述线条集合并判断所述线条集合中线条的方向，其中，所述线条集合中包含多个线条；将沿X轴方向平行的线条两两组合为第一平行线以及将沿Y轴方向平行的线条两两组合为第二平行线以获得多组所述第一平行线和多组所述第二平行线；读取所述第一平行线，并对于每一组所述第一平行线，判断在所述多组第二平行线中是否存在与自身相交的第二平行线；若在所述多组第二平行线中存在与自身相交的第二平行线，则确认由相交的第一平行线和第二平行线所围成的重合区域的面积；若所述重合区域的面积大于预设面积，则将相交的第一平行线和第二平行线组合成矩形并归类至所述矩形集合。4.如权利要求3所述的识别PDF文件中文本框的方法，其特征在于，所述对所述预设图形集合进行处理以获得目标预设图形集合的步骤，包括：对所述矩形集合中的矩形排序以获得中间矩形集合；读取所述中间矩形集合中的矩形，并对于所述中间矩形集中的每一个矩形，判断在所述中间矩形集合中是否存在与其自身完全重合的矩形；若在所述中间矩形集合中存在与自身完全重合的矩形，则将两个重合的矩形合并为一个矩形；若完成对所述中间矩形集合中所有矩形的判断，则将所述中间矩形集合归类至所述预
设图形集合中以获得所述目标预设图形集合。5.如权利要求1...

【专利技术属性】
技术研发人员：邢振雨，
申请(专利权)人：深圳万兴软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人