一种金融类PDF文档结构化方法及设备技术

技术编号：35593897 阅读：17 留言：0更新日期：2022-11-16 15:12

本发明专利技术涉及一种金融类PDF文档结构化方法，包括以下步骤：获取模式指令，若模式指令为第一模式，则执行第一解析过程，若模式指令为第二模式，则执行第二解析过程；所述第一解析过程包括：获取待解析PDF文档并打开；响应框选指令，获取框选指令对应的对象坐标，基于所述对象坐标获取对应的目标对象；获取所述目标对象的解析结果；所述第二解析过程包括：依据待解析PDF文档的存储路径，批量获取待解析PDF文档；采用多进程并发方式，提取每一待解析PDF文档的对象坐标，基于所述对象坐标获取对应的目标对象；获取所述目标对象的解析结果。与现有技术相比，本发明专利技术具有解析准确率高、自动化等优点。优点。优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种金融类PDF文档结构化方法及设备

[0001]本专利技术涉及一种金融类文档处理方法，尤其是涉及一种金融类PDF文档结构化方法及设备。

技术介绍

[0002]PDF文档是一种应用非常广泛的文档格式，可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在其中，具有存储文件占空间少，不会被随便篡改，便于传输，不存在兼容问题等优点。几乎所有的金融类文档都以PDF格式存在。但PDF文档也存在缺点，文档中的文本、图片和表格等内容无法直接被导出，这对于许多从文档中提取文本信息、图片资料和表格数据的人群带来了极大的不便。针对少量的内容，人们可通过手动操作将文档从PDF格式转变为其他格式，然后进行格式调整与内容比对后使用，但当文档内容非常多或文档数量非常大时，仅依靠人工操作完成内容的解析，工作量极为巨大，且无法保准准确性。尤其在金融领域，如招股说明书、上市公司研究报告等内容一般在百页以上，其中包含大量的文本、图片和表格内容，且其对解析结果准确率要求极高。
[0003]虽然在市场上已经存在部分产品，可实现文档解析功能，但其存在仅针对特定种类或特定布局文档的缺点。如CN110188649A公开一种基于tesseract
‑
ocr的pdf文件解析方法，该方法用fitz工具包把pdf文件转换为图片序列；针对图片序列的每一个图片，用TableBank工具得到表格的多个区域位置；利用tesseract
‑
ocr进行图片中的图提取、表格单元格的提取和识别：本专利技术在tesseractr/>‑
ocr基础上，通过结合TableBank的表格检测和表格结构识别模型，得到了表格各单元格中的内容；匹配docx解析结果，解决了ocr识别错误的问题；对tesseract
‑
ocr的ocr模型进行替换，提升了识别的准确率和速度。但该方法是先将PDF文档内容转化为图片序列，再对图片序列中的信息进行解析，该过程中需要大量训练集，且存在识别准确不高。又如CN110147697A公开一种人机互助的PDF表格提取方法，将待解析的PDF文件上传至浏览器，并打开所述PDF文件；在PDF页面中划选PDF表格区域，得到PDF表格在PDF页面中的位置信息，所述位置信息包括left信息、right信息、bottom信息和top信息；将得到的PDF表格在PDF页面中的left信息、right信息、bottom信息和top信息以及所述PDF表格在PDF文件中的页码信息传输给后台服务器；在后台服务器进行PDF表格的解析。该方法仅针对PDF文档中的表格进行提取，需要人为框选文档中的表格，确定表格的边框范围后才能进一步解析表格内容。
[0004]金融类PDF文档存在着布局多样，表格形式多样的特点，存在大量的图片信息和文本信息，且金融类文档较大，内容较多，仅依靠人为框选无法满足金融类文档信息提取批量、数据挖掘的需求。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种解析准确率高、自动化的金融类PDF文档结构化方法及设备。
[0006]专利技术的目的可以通过以下技术方案来实现：
[0007]一种金融类PDF文档结构化方法，包括以下步骤：
[0008]获取模式指令，若模式指令为第一模式，则执行第一解析过程，若模式指令为第二模式，则执行第二解析过程；
[0009]所述第一解析过程包括：
[0010]获取待解析PDF文档并打开；
[0011]响应框选指令，获取框选指令对应的对象坐标，基于所述对象坐标获取对应的目标对象；
[0012]获取所述目标对象的解析结果；
[0013]所述第二解析过程包括：
[0014]依据待解析PDF文档的存储路径，批量获取待解析PDF文档；
[0015]采用多进程并发方式，提取每一待解析PDF文档的对象坐标，基于所述对象坐标获取对应的目标对象；
[0016]获取所述目标对象的解析结果。
[0017]进一步地，所述待解析PDF文档的布局形式包括单栏布局、双栏布局或复杂布局。
[0018]进一步地，所述目标对象包括文本、图片或表格。
[0019]进一步地，若所述目标对象为表格，则基于所述对象坐标获取对应的目标对象包括：
[0020]判断所述对象坐标是否包含有线条坐标，将所述线条坐标组成线条集合，基于横线和竖线的交叉处理，构造获得表格；
[0021]获取文本坐标的规律性间隔，补充缺失线条。
[0022]进一步地，若所述目标对象为表格，则基于所述对象坐标获取对应的目标对象还包括：
[0023]获取文本的跨行信息，合并跨行表格。
[0024]进一步地，若所述目标对象为表格，则基于所述对象坐标获取对应的目标对象还包括：
[0025]基于表格内容和行列相似度，确定表格形式。
[0026]进一步地，若所述目标对象为表格，则基于所述对象坐标获取对应的目标对象还包括：
[0027]判断是否识别到页眉或页脚信息，若是，则执行跨页表格合并。
[0028]进一步地，若所述目标对象为表格，则基于所述对象坐标获取对应的目标对象还包括：
[0029]对获取的图像进行预处理，消除色块背景，所述预处理包括灰度转换、图像平滑、边缘检测和二值化。
[0030]进一步地，该方法还包括：自动保存所述解析结果，所述解析结果的保存格式包括Html、CSV或Json。
[0031]本专利技术还提供一种电子设备，包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如上所述金融类PDF文档结构化方法的指令。
[0032]与现有技术相比，本专利技术具有以下有益效果：
[0033]1、本专利技术通过解析PDF文档中各元素的位置信息后，自动识别不同布局的PDF文档中的文本、图片和表格坐标，并实现文档结构化，解析准确率高。
[0034]2、本专利技术是通过直接解析PDF文档中文本、图片和表格内容，可基本实现解析准确率100％。
[0035]3、本专利技术可通过解析文档的md5值，向服务器提交文件流的方式，实现文档批量结构化，通过对大量PDF文档元素的批量解析，对PDF文档中文本、图片和表格等元素坐标进行快速定位，并将结构化结果保存至目标文档，满足大数据和人工智能时代下，自动批处理的需求。
[0036]4、本专利技术可根据所解析的PDF文档量来选择不同的解析模式，针对性高，提高处理效率。
[0037]5、本专利技术不仅针对PDF中的表格信息，还可结构化文档中的图片和文本信息。
[0038]6、对于PDF文档的布局无限制，可准确解析PDF文档的多种布局格式，如单栏、双栏或复杂布局，同时可实现不同形式的表格解析，如有边框、部分边框、无边框或色块为背景。
附图说明
[0039]图1为本专利技术第一解析过程的流程示意图；
[0040]图2为本专利技术第二解本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种金融类PDF文档结构化方法，其特征在于，包括以下步骤：获取模式指令，若模式指令为第一模式，则执行第一解析过程，若模式指令为第二模式，则执行第二解析过程；所述第一解析过程包括：获取待解析PDF文档并打开；响应框选指令，获取框选指令对应的对象坐标，基于所述对象坐标获取对应的目标对象；获取所述目标对象的解析结果；所述第二解析过程包括：依据待解析PDF文档的存储路径，批量获取待解析PDF文档；采用多进程并发方式，提取每一待解析PDF文档的对象坐标，基于所述对象坐标获取对应的目标对象；获取所述目标对象的解析结果。2.根据权利要求1所述的金融类PDF文档结构化方法，其特征在于，所述待解析PDF文档的布局形式包括单栏布局、双栏布局或复杂布局。3.根据权利要求1所述的金融类PDF文档结构化方法，其特征在于，所述目标对象包括文本、图片或表格。4.根据权利要求3所述的金融类PDF文档结构化方法，其特征在于，若所述目标对象为表格，则基于所述对象坐标获取对应的目标对象包括：判断所述对象坐标是否包含有线条坐标，将所述线条坐标组成线条集合，基于横线和竖线的交叉处理，构造获得表格；获取文本坐标的规律性间隔，补充缺失线条。5.根据权利要求4所述的金融类PDF文档结构化方法，其特征在...

【专利技术属性】
技术研发人员：牛晶茹，杨鹏宇，汪悦，郭丹峰，
申请(专利权)人：中银金融科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人