面向PDF表格的自动识别系统和方法技术方案

技术编号:20944926 阅读:30 留言:0更新日期:2019-04-24 02:34
本发明专利技术提供一种面向PDF表格的自动识别系统和方法,扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;自动识别表格内容中的文本和表头,以结构化形式输出,对得到的结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。实现PDF公告文件中表格的自动识别,结合实际金融业务处理的需求对表格进行个性化调整,解决现阶段数据快速增长报表处理速度问题。

An Automatic Recognition System for PDF Tables

The invention provides an automatic recognition system for PDF tables, which scans PDF format reports and identifies the table content and text content in PDF files; preserves the original table style completely, parses the table content according to business needs, adjusts the original table style to get the adjusted table style; and automatically identifies the text and header in the table content to be structured. Formal output filters the structured data, filters the invalid information according to the business needs, checks the business balance of the header subject data, gets the qualified data and enters the database; displays the qualified data according to the original form style or the adjusted form style, and provides the form download to get the form in Excel format. To realize the automatic recognition of tables in PDF bulletin documents, and to adjust the tables individually according to the needs of actual financial business processing, so as to solve the problem of processing speed of report forms with rapid growth of data at the present stage.

【技术实现步骤摘要】
面向PDF表格的自动识别系统和方法
本专利技术涉及数字媒体加工
,具体地,涉及面向PDF表格的自动识别系统和方法。本专利技术涉及加工
,更具体的说,涉及解析PDF文件方法及系统。
技术介绍
互联网的飞速发展催生了大数据时代的来临,数据信息庞大且繁杂,其中金融行业一直是大数据的重要产生者和消费者。随着上市公司、发债机构的大量增加,导致每天需要处理的信息呈爆发式增长,原有的手工+程序处理方式,已经远远无法达到现阶段的要求,其中就有财务PDF公告的信息处理。SolidConverter是一套专门将PDF文件转换成DOC的软件,除了转换成DOC文件外,还可以转换成RTF以及WordXML文件。除此之外,SolidConverter还有一个图片撷取功能,可以让我们将PDF档里的图片撷取出来,以及将PDF档里的表格撷取出来,并输出到Excel里,方便我们编辑表格里的资料。但对于比较复杂的企业财务信息,不仅要把表格撷取出来,还要满足金融行业实际的业务需求对表格进行分析,并且能够快速、准确识别处理文件中的表格、文字、图片等内容,满足不断快速增长的数据处理需求。因此需要提供一种能够自动识别PDF表格,且实现金融业务处理,解决现阶段数据快速增长系统处理速度的问题。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种面向PDF表格的自动识别系统和方法。根据本专利技术提供的一种面向PDF表格的自动识别系统,包括:识别表格模块:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;抽取表格模块:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;识别文字模块:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;筛选校验模块:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;表格展示模块:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。优选地,所述扫描PDF格式的报表是通过二进制读取的方式进行,根据读取得到的一个或多个内容流,进行创建虚拟内容流,并对虚拟内容流创建内容索引号,每个内容流通过关键字参数顶到到所需的内容索引号。优选地,所述调整后表格样式是通过对原始表格样式的合并与补全,采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。优选地,所述识别表格内容基于深度学习,深度学习通过财务报表数据库进行。优选地,所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。根据本专利技术提供的一种面向PDF表格的自动识别方法,包括:识别表格步骤:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;抽取表格步骤:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;识别文字步骤:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;筛选校验步骤:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;表格展示步骤:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。与现有技术相比,本专利技术具有如下的有益效果:1、实现PDF公告文件中表格的自动识别,结合实际金融业务处理的需求对表格进行个性化调整,解决现阶段数据快速增长报表处理速度的问题;2、PDF识别速度大幅提高,一个PDF由原来的2-5分钟,缩短至10秒左右,可识别虚线图片表格;3、支持个性化的表格样式调整,实现各类财务报表中图片的快速识别和结构化入库。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为PDF表格的自动识别系统流程图;图2为PDF表格抽取后的实现效果示意图;图3为本专利技术的实现效果示意图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。本专利技术实现PDF公告文件中表格的自动识别,结合实际金融业务处理的需求对表格进行个性化调整,解决现阶段数据快速增长系统处理速度的问题,同时提升公司处理季度、年度财务报告的能力,节省公司人力成本,提升效率,为客户提供更高效、及时、准确的相关数据服务。根据本专利技术提供的一种面向PDF表格的自动识别系统,包括:识别表格模块:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;抽取表格模块:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;识别文字模块:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;筛选校验模块:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;表格展示模块:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。具体地,所述扫描PDF格式的报表是通过二进制读取的方式进行,根据读取得到的一个或多个内容流,进行创建虚拟内容流,并对虚拟内容流创建内容索引号,每个内容流通过关键字参数顶到到所需的内容索引号。具体地,所述调整后表格样式是通过对原始表格样式的合并与补全,采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。具体地,所述识别表格内容基于深度学习,深度学习通过财务报表数据库进行。具体地,所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。根据本专利技术提供的一种面向PDF表格的自动识别方法,包括:识别表格步骤:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;抽取表格步骤:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;识别文字步骤:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;筛选校验步骤:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;表格展示步骤:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。本专利技术提供的面向PDF表格的自动识别系统,可以通过面向PDF表格的自动识别方法的步骤流程实现。本领域技术人员可以将面向PDF表格的自动识别方法理解为所述面向PDF表格的自动识别系统的优选例。PDF文件格式以其安全可靠,易于交换,及保真度高而成为电子文档的标准。本专利技术主要面向PDF文档,对特定内容的检索、识别、抽取、筛选、校验、入库等,以二进制读取的方式对文件进行解析,并通过遍历所有的对象及流对象,构建PDF页内容,解析PDF页面上内容,最终将处理后的数据内容并入数据库。如图1所示,本专利技术在PDF识别的实现方面,用于对企业按季度、年度披露的PDF格式的财务报表本文档来自技高网...

【技术保护点】
1.一种面向PDF表格的自动识别系统,其特征在于,包括:识别表格模块:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;抽取表格模块:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;识别文字模块:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;筛选校验模块:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;表格展示模块:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。

【技术特征摘要】
1.一种面向PDF表格的自动识别系统,其特征在于,包括:识别表格模块:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;抽取表格模块:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;识别文字模块:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;筛选校验模块:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;表格展示模块:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。2.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述扫描PDF格式的报表是通过二进制读取的方式进行,根据读取得到的一个或多个内容流,进行创建虚拟内容流,并对虚拟内容流创建内容索引号,每个内容流通过关键字参数顶到到所需的内容索引号。3.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述调整后表格样式是通过对原始表格样式的合并与补全,采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。4.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述识别表格内容基于深度学习,深度学习通过财务报表数据库进行。5.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。...

【专利技术属性】
技术研发人员:张长虹冯卫强张友豪罗万坤王瑞贺晓燕
申请(专利权)人:上海大智慧财汇数据科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1