面向PDF表格的自动识别系统和方法技术方案

技术编号：20944926 阅读：30 留言：0更新日期：2019-04-24 02:34

本发明专利技术提供一种面向PDF表格的自动识别系统和方法，扫描PDF格式的报表，识别出PDF文件中的表格内容、文字内容；完整保留原始表格样式，根据业务需求解析表格内容，对原始表格样式进行调整，得到调整后表格样式；自动识别表格内容中的文本和表头，以结构化形式输出，对得到的结构化入库数据进行筛选，根据业务需求过滤无效信息，校验表头各个科目数据的业务平衡性，得到校验合格数据并录入数据库；根据原始表格样式或者调整后表格样式对校验合格数据进行展示，并提供表格下载，得到excel格式的表格。实现PDF公告文件中表格的自动识别，结合实际金融业务处理的需求对表格进行个性化调整，解决现阶段数据快速增长报表处理速度问题。

An Automatic Recognition System for PDF Tables

The invention provides an automatic recognition system for PDF tables, which scans PDF format reports and identifies the table content and text content in PDF files; preserves the original table style completely, parses the table content according to business needs, adjusts the original table style to get the adjusted table style; and automatically identifies the text and header in the table content to be structured. Formal output filters the structured data, filters the invalid information according to the business needs, checks the business balance of the header subject data, gets the qualified data and enters the database; displays the qualified data according to the original form style or the adjusted form style, and provides the form download to get the form in Excel format. To realize the automatic recognition of tables in PDF bulletin documents, and to adjust the tables individually according to the needs of actual financial business processing, so as to solve the problem of processing speed of report forms with rapid growth of data at the present stage.

全部详细技术资料下载

【技术实现步骤摘要】
面向PDF表格的自动识别系统和方法
本专利技术涉及数字媒体加工
，具体地，涉及面向PDF表格的自动识别系统和方法。本专利技术涉及加工
，更具体的说，涉及解析PDF文件方法及系统。
技术介绍
互联网的飞速发展催生了大数据时代的来临，数据信息庞大且繁杂,其中金融行业一直是大数据的重要产生者和消费者。随着上市公司、发债机构的大量增加，导致每天需要处理的信息呈爆发式增长，原有的手工+程序处理方式，已经远远无法达到现阶段的要求，其中就有财务PDF公告的信息处理。SolidConverter是一套专门将PDF文件转换成DOC的软件，除了转换成DOC文件外，还可以转换成RTF以及WordXML文件。除此之外，SolidConverter还有一个图片撷取功能，可以让我们将PDF档里的图片撷取出来，以及将PDF档里的表格撷取出来，并输出到Excel里，方便我们编辑表格里的资料。但对于比较复杂的企业财务信息，不仅要把表格撷取出来，还要满足金融行业实际的业务需求对表格进行分析，并且能够快速、准确识别处理文件中的表格、文字、图片等内容，满足不断快速增长的数据处理需求。因此需要提供一种能够自动识别PDF表格，且实现金融业务处理，解决现阶段数据快速增长系统处理速度的问题。
技术实现思路
针对现有技术中的缺陷，本专利技术的目的是提供一种面向PDF表格的自动识别系统和方法。根据本专利技术提供的一种面向PDF表格的自动识别系统，包括：识别表格模块：扫描PDF格式的报表，识别出PDF文件中的表格内容、文字内容；抽取表格模块：完整保留原始表格样式，根据业务需求解析表格内容，对原始表格样...

【技术保护点】
1.一种面向PDF表格的自动识别系统，其特征在于，包括：识别表格模块：扫描PDF格式的报表，识别出PDF文件中的表格内容、文字内容；抽取表格模块：完整保留原始表格样式，根据业务需求解析表格内容，对原始表格样式进行调整，得到调整后表格样式；识别文字模块：自动识别表格内容中的文本和表头，将文本和表头以结构化形式输出，得到结构化入库数据；筛选校验模块：对结构化入库数据进行筛选，根据业务需求过滤无效信息，校验表头各个科目数据的业务平衡性，得到校验合格数据并录入数据库；表格展示模块：根据原始表格样式或者调整后表格样式对校验合格数据进行展示，并提供表格下载，得到excel格式的表格。

【技术特征摘要】
1.一种面向PDF表格的自动识别系统，其特征在于，包括：识别表格模块：扫描PDF格式的报表，识别出PDF文件中的表格内容、文字内容；抽取表格模块：完整保留原始表格样式，根据业务需求解析表格内容，对原始表格样式进行调整，得到调整后表格样式；识别文字模块：自动识别表格内容中的文本和表头，将文本和表头以结构化形式输出，得到结构化入库数据；筛选校验模块：对结构化入库数据进行筛选，根据业务需求过滤无效信息，校验表头各个科目数据的业务平衡性，得到校验合格数据并录入数据库；表格展示模块：根据原始表格样式或者调整后表格样式对校验合格数据进行展示，并提供表格下载，得到excel格式的表格。2.根据权利要求1所述的面向PDF表格的自动识别系统，其特征在于，所述扫描PDF格式的报表是通过二进制读取的方式进行，根据读取得到的一个或多个内容流，进行创建虚拟内容流，并对虚拟内容流创建内容索引号，每个内容流通过关键字参数顶到到所需的内容索引号。3.根据权利要求1所述的面向PDF表格的自动识别系统，其特征在于，所述调整后表格样式是通过对原始表格样式的合并与补全，采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。4.根据权利要求1所述的面向PDF表格的自动识别系统，其特征在于，所述识别表格内容基于深度学习，深度学习通过财务报表数据库进行。5.根据权利要求1所述的面向PDF表格的自动识别系统，其特征在于，所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。...

【专利技术属性】
技术研发人员：张长虹，冯卫强，张友豪，罗万坤，王瑞，贺晓燕，
申请(专利权)人：上海大智慧财汇数据科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人