一种基于大数据的PDF文档处理方法及装置制造方法及图纸

技术编号:17779704 阅读:27 留言:0更新日期:2018-04-22 08:12
本发明专利技术公开了一种基于大数据的PDF文档处理方法及装置,该方法包括:利用去重技术和格式转换技术,构建包含多个不同文档格式财务文档的多格式文档池;利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间;利用财务数据所对应的不同解析结果,对财务数据进行校验。该装置包括用于存储程序的存储器以及用于加载程序并执行所述基于大数据的PDF文档处理方法的处理器。通过使用本发明专利技术,能够快速、准确地对多种不同格式的财务文档进行财务数据的解析提取。本发明专利技术作为一种基于大数据的PDF文档处理方法及装置可广泛应用于大数据解析领域中。

【技术实现步骤摘要】
一种基于大数据的PDF文档处理方法及装置
本专利技术涉及大数据处理技术,尤其涉及一种基于大数据的PDF文档处理方法及装置。
技术介绍
技术词解释:正则表达式:使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。资产负债表:表示企业在一定日期(通常为各会计期末)的财务状况(即资产、负债和业主权益的状况)的主要会计报表。利润表:反映企业在一定会计期间经营成果的报表。现金流量表:反映企业在一定会计期间现金和现金等价物流入和流出的报表。在企业财务大数据分析领域中,许多财务数据的获取需要从公司披露的年报或发债时发布的募集说明书等文档中进行提取,并且对提取得到的数据的准确性有很高的要求。目前,这些财务文档通常被保存为PDF格式,且其中部分为图片格式的PDF文档,因此如何对这些PDF文档中的财务数据进行自动、快速、准确的解析提取,这对企业而言,其在降低数据获取成本、提高数据准确率和处理效率等方面具有重要的意义。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种基于大数据的PDF文档处理方法、系统及装置,可快速、准确地对多个财务文档进行财务数据的解析提取。本专利技术所采用的第一技术方案是:一种基于大数据的PDF文档处理方法,该方法包括以下步骤:利用去重技术和格式转换技术,构建多格式文档池,其中,所述多格式文档池包含多个不同文档格式的财务文档;利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间;利用财务数据所对应的不同解析结果,对财务数据进行校验。本专利技术所采用的第二技术方案是:一种基于大数据的PDF文档处理系统,该系统包括:构建单元,用于利用去重技术和格式转换技术,构建多格式文档池,其中,所述多格式文档池包含多个不同文档格式的财务文档;解析单元,用于利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间;校验单元,用于利用财务数据所对应的不同解析结果,对财务数据进行校验。本专利技术所采用的第三技术方案是:一种基于大数据的PDF文档处理装置,该装置包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上述第一技术方案所述一种基于大数据的PDF文档处理方法。本专利技术方法、系统及装置的有益效果是:本专利技术通过利用去重技术和格式转换技术,构建多格式文档池后,利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理,以获得财务数据以及与财务数据对应的指标名称和时间,接着,利用财务数据所对应的针对不同文档源的不同解析结果,对财务数据进行校验,因此由此可见,通过使用本专利技术,能够快速、准确地对财务文档进行财务数据的解析提取,解析得到高精准度的财务数据。附图说明图1是本专利技术一种基于大数据的PDF文档处理方法的步骤流程图;图2是本专利技术一种基于大数据的PDF文档处理系统的结构框图;图3是本专利技术一种基于大数据的PDF文档处理方法的一具体实施例步骤流程图。具体实施方式实施例1如图1所示,一种基于大数据的PDF文档处理方法,该方法包括以下步骤:利用去重技术和格式转换技术,构建多格式文档池,其中,所述多格式文档池包含多个不同文档格式的财务文档;利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间;利用财务数据所对应的不同解析结果,对财务数据进行校验。进一步作为本方法的优选实施方式,所述利用去重技术和格式转换技术,构建多格式文档池这一步骤,其具体包括:利用去重技术,构建文档下载链接池;利用文档下载链接池中所包含的至少一个PDF财务文档下载链接,下载得到相对应的至少一个PDF财务文档;利用格式转换技术,将下载得到的PDF财务文档转换成不同文档格式的财务文档后,将不同文档格式的财务文档放入多格式文档池中。进一步作为本方法的优选实施方式,所述利用去重技术和格式转换技术,构建多格式文档池这一步骤,其还具体包括:计算多格式文档池中每一个财务文档的信度值。进一步作为本方法的优选实施方式,所述利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间这一步骤,其具体包括:利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行财务报表的定位处理;对定位得到的财务报表内的数据进行定位处理后,记录财务数据以及与财务数据对应的指标名称和时间;对属于数值型的财务数据进行单位换算。进一步作为本方法的优选实施方式,所述利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理这一步骤之前设置有以下步骤:构建财务指标的正则表达式规则;和/或,获取财务报表的起始特征指标和结束特征指标。进一步作为本方法的优选实施方式,所述利用财务数据所对应的不同解析结果,对财务数据进行校验这一步骤,其具体包括:对财务数据所对应的不同解析结果进行类别划分;从划分得到的至少一个类别中,选取出符合第一预设条件的类别作为正确类别;从正确类别中选取出符合第二预设条件的解析结果作为正确数据,并对正确数据设置对应的数据可信度;将正确数据作为经校验后的财务数据。进一步作为本方法的优选实施方式,所述从划分得到的至少一个类别中,选取出符合第一预设条件的类别作为正确类别这一步骤,其具体包括:当划分得到的类别的个数为1时,则将划分得到的类别作为正确类别;当划分得到的类别的个数至少为2时,则根据类别中所包含的解析结果的个数、财务文档的信度值之和和/或财务文档的发布时间,从至少2个类别中选取出对应的类别作为正确类别。进一步作为本方法的优选实施方式,该方法还包括文档解析修正优化步骤,所述文档解析修正优化步骤具体包括以下步骤:根据财务数据所对应的不同解析结果以及正确数据,计算得出数据解析正确率;当计算得出的数据解析正确率小于阈值时,根据预设的修正优化策略,对文档解析过程进行修正优化,直到计算得出的数据解析正确率大于等于阈值。进一步作为本方法的优选实施方式,所述利用去重技术和格式转换技术,构建多格式文档池这一步骤,和/或所述利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间这一步骤,采用分布式处理方式来执行;和/或,所述多格式文档池存储在分布式存储服务器中。实施例2如图2所示,与上述方法对应的系统,一种基于大数据的PDF文档处理系统,该系统包括:构建单元,用于利用去重技术和格式转换技术,构建多格式文档池,其中,所述多格式文档池包含多个不同文档格式的财务文档;解析单元,用于利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间;校验单元,用于本文档来自技高网...
一种基于大数据的PDF文档处理方法及装置

【技术保护点】
一种基于大数据的PDF文档处理方法,其特征在于:该方法包括以下步骤:利用去重技术和格式转换技术,构建多格式文档池,其中,所述多格式文档池包含多个不同文档格式的财务文档;利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间;利用财务数据所对应的不同解析结果,对财务数据进行校验。

【技术特征摘要】
1.一种基于大数据的PDF文档处理方法,其特征在于:该方法包括以下步骤:利用去重技术和格式转换技术,构建多格式文档池,其中,所述多格式文档池包含多个不同文档格式的财务文档;利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间;利用财务数据所对应的不同解析结果,对财务数据进行校验。2.根据权利要求1所述一种基于大数据的PDF文档处理方法,其特征在于:所述利用去重技术和格式转换技术,构建多格式文档池这一步骤,其具体包括:利用去重技术,构建文档下载链接池;利用文档下载链接池中所包含的至少一个PDF财务文档下载链接,下载得到相对应的至少一个PDF财务文档;利用格式转换技术,将下载得到的PDF财务文档转换成不同文档格式的财务文档后,将不同文档格式的财务文档放入多格式文档池中。3.根据权利要求2所述一种基于大数据的PDF文档处理方法,其特征在于:所述利用去重技术和格式转换技术,构建多格式文档池这一步骤,其还具体包括:计算多格式文档池中每一个财务文档的信度值。4.根据权利要求3所述一种基于大数据的PDF文档处理方法,其特征在于:所述利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间这一步骤,其具体包括:利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行财务报表的定位处理;对定位得到的财务报表内的数据进行定位处理后,记录财务数据以及与财务数据对应的指标名称和时间;对属于数值型的财务数据进行单位换算。5.根据权利要求4所述一种基于大数据的PDF文档处理方法,其特征在于:所述利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理这一步骤之前设置有以下步骤:构建财务指标的正则表达式规则;和/或,获取财务报表的起始特征指标和结束特征指标。6.根据权利要求4...

【专利技术属性】
技术研发人员:贾义动纪晓阳高峰
申请(专利权)人:广东广业开元科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1