PDF文字提取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:20944905 阅读:44 留言:0更新日期:2019-04-24 02:33
本申请涉及一种PDF文字提取方法、装置、计算机设备和存储介质,其中该方法包括:获取PDF文字提取请求;根据所述PDF文字提取请求,在PDF文档中确定数据区域的范围;对所述数据区域进行列切割以及行切割;根据所述列切割以及行切割的结果,将所述数据区域分割成多个单元格;分别提取所述多个单元格中的文字。本发明专利技术实现了针对可编辑的PDF文件,在无边框表格区域通过可视化的前端工具对数据区域进行打点分割映射,将数据区域进行单元格化,通过单元格的区域范文进行文字提取。

PDF Text Extraction Method, Device, Computer Equipment and Storage Media

This application relates to a PDF text extraction method, device, computer equipment and storage medium, in which the method includes: acquiring PDF text extraction request; determining the range of data area in PDF document according to the PDF text extraction request; cutting column and row of the data area; and dividing the data area according to the results of column and row cutting. Cut into a plurality of cells; extract the text in the plurality of cells separately. The present invention realizes the point division mapping of data area in the area without borders table by visual front-end tools for editable PDF files, the cell of data area, and the text extraction through the region model text of cells.

【技术实现步骤摘要】
PDF文字提取方法、装置、计算机设备和存储介质
本专利技术涉及计算机应用
,特别是涉及一种PDF文字提取方法、装置、计算机设备和存储介质。
技术介绍
目前,PDF是PortableDocumentFormat(可移植文档格式)的缩写,是由Adobe公司开发的一种开放式的电子文件格式。PDF由PostScript(附言)编程语言发展而来,而PostScript编程语言当前依然作为主流的打印机编程语言广泛应用于专业出版领域。PDF大量延续了PostScript编程语言中的页面描述方式,采用了PostScript编程语言中定义的字符编码方式。在传统技术中,PDF表格识别一般是基于显式的表格边框,通过ocr技术进行模型分析,确认数据边框区域,根据边框区域提取文本数据。然而在实际生产过程中,存在大量PDF文件,无显式表格边框,但实际文本内容是呈表格分布显示。同时,ocr技术无法保证100%的识别率,对文件的清晰度、字体和扫描图片的倾斜度存在较高的要求。实际生产场景中,例如:一些财务类型的pdf,需要达到100%的识别率,基于通用的ocr识别技术已经无法满足实际生产的需求。
技术实现思路
基于本文档来自技高网
...

【技术保护点】
1.一种PDF文字提取方法,所述方法包括:获取PDF文字提取请求;根据所述PDF文字提取请求,在PDF文档中确定数据区域的范围;对所述数据区域进行列切割以及行切割;根据所述列切割以及行切割的结果,将所述数据区域分割成多个单元格;分别提取所述多个单元格中的文字。

【技术特征摘要】
1.一种PDF文字提取方法,所述方法包括:获取PDF文字提取请求;根据所述PDF文字提取请求,在PDF文档中确定数据区域的范围;对所述数据区域进行列切割以及行切割;根据所述列切割以及行切割的结果,将所述数据区域分割成多个单元格;分别提取所述多个单元格中的文字。2.根据权利要求1所述的PDF文字提取方法,其特征在于,所述根据所述PDF文字提取请求,在PDF文档中确定数据区域的范围的步骤包括:根据所述PDF文字提取请求,获取开始关键字和结束关键字;根据PDF协议在PDF文档中检索所述开始关键字和结束关键字的坐标位置;根据所述开始关键字和结束关键字的坐标位置确定矩形范围,所述矩形范围作为所述数据区域的范围。3.根据权利要求1所述的PDF文字提取方法,其特征在于,所述对所述数据区域进行列切割以及行切割的步骤包括:根据所述数据区域的数据特征,在水平线上进行列分割打点;记录每个打点之间的间隔,对所述数据区域进行列分割;获取行关键字,在所述数据区域内检索所述行关键字;根据所述行关键字的坐标位置计算出每行数据的高度,对所述数据区域进行行分割。4.根据权利要求1-3任一项所述的PDF文字提取方法,其特征在于,在所述根据所述列切割以及行切割的结果,将所述数据区域分割成多个单元格的步骤之后还包括:计算所述多个单元格的坐标、宽度和高度;根据所述多个单元格的坐标、宽度和高度,分别对所述多个单元格中的文字进行提取归档。5.一种PDF文字提取装置,其特征在于,所述装置包括:获取模块,所述获取模块用于获取PDF文字提取请求;区域确定模块,所述区域确定模块用于根据所述PDF文字提取请求,在PDF...

【专利技术属性】
技术研发人员:郑裕濠廖小文詹先余伦强黄瑞延
申请(专利权)人:广东亿迅科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1