一种基于PDF财务数据报表的数据采集、处理的方法及系统技术方案

技术编号:36435179 阅读:26 留言:0更新日期:2023-01-20 22:48
本发明专利技术公开了一种基于PDF财务数据报表的数据采集、处理的方法及系统,主要通过识别财务报表关键信息,将其与模板进行匹配,形成根据设定的关键词以及关系条件提取临时表格信息,并对所述临时表单的单元格数据转换处理,生成最终的财务报表,最后所述新的财务数据报表输入勾稽验证模块,对财务数据报表单个表格内的数据以及表格之间的数据按预先设置的核验规则进行核验,判断新的财务报表的数据是否准确;功能完整,有效保证财务报表的正确性,提高了财务报表的效率。高了财务报表的效率。高了财务报表的效率。

【技术实现步骤摘要】
一种基于PDF财务数据报表的数据采集、处理的方法及系统


[0001]本专利技术属于大数据
,特别涉及一种基于PDF财务数据报表的数据采集、处理的方法及系统。

技术介绍

[0002]财务报表是指在日常会计核算资料的基础上,按照规定的格式、内容和方法定期编制的,综合反映企业某一特定日期财务状况和某一特定时期经营成果、现金流量状况的书面文件。
[0003]但当财务报表处理量较大时,仅由工作人员进行数据采集、数据处理、勾稽核对等工作,处理效率较低的同时,人工成本增加,也使报表处理过程产生错误的可能性增大。

技术实现思路

[0004]本专利技术提供一种基于PDF财务数据报表的数据采集、处理的系统,旨在解决财务报表处理量较大时,仅由工作人员进行数据采集、数据处理、勾稽核对等工作,处理效率较低的同时,人工成本增加,也使报表处理过程产生错误的可能性增大的问题。
[0005]为解决上述技术问题,本专利技术提供如下技术方案:
[0006]一种基于PDF财务数据报表的数据采集、处理的方法,包括以下步骤
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于PDF财务数据报表的数据采集、处理的方法,其特征在于,包括以下步骤:S1:调用识别工具根据设定的条件提取一PDF格式的财务报表的关键信息,提取所有包含关键信息的报表,将所有的表格的单元格取消合,并根据分类模板进行分类,并将信息录入相应的表单模板并生成新的二次表单,所述二次表单格式为JSON;S2:提取所述二次表单内所有数据,判断是否存在数据列,若单元格存在可能的列,且该单元格没有具体的值,则赋予该单元格一个定义值进行填充,生成新的临时表单;S3:根据表格模板匹配结果确定临时表单中表格的类型;将临时表单的数据输入预先构建的提取模块,根据提取模块中的表格模板中预设的提取条件,提取出临时表单中的相关表格,建立所述临时表单的表格与提取模块中表格模板的映射关系;所述提取模块包括若干提取条件,所述提取模块的提取条件为是否包含设定的关键词以及关系条件;S4:根据表格字段模板匹配结果确定临时表单中表格中单元格的列名信息;S5:对所述临时表单中的列名信息进行采集,形成新的财务数据报表的列名,后对所述临时表单的单元格数据转换处理,遍历所述临时表单的每个单元格,判断是否存在数据,若存在数据,则判断该数据类型,每种数据类型对应设置有一转换匹配单元模块,若数据与设置的匹配单元模块的设置格式不同,则进行转换,将原数据转换生成新的数据;经转换后的数据生成新的财务数据报表;S6:将所述新的财务数据报表输入勾稽验证模块,对财务数据报表单个表格内的数据以及表格之间的数据按预先设置的核验规则进行核验,判断新的财务报表的数据是否准确。2.根据权利要求1所述的一种基于PDF财务数据报表的智能采集和处理方法,其特征在于,所述步骤S2赋予该列一个定义值进行填充具体为:先搜寻单元格在该列上方的单元格是否存在值,若列上方的值不为空,则取列上方的单元格的值作为所述单元格的值;若列上方单元的值为空,则取列左边的单元格的值作为所述单元格的值。3.根据权利要求2所述的一种基于PDF财务数据报表的数据采集、处理的方法,其特征在于,所述步骤S3根据提取模块中的表格模板中预设的提取条件,提取出临时表单中的相关表格,可通过表格目录匹配规则、表格列名匹配规则、表格上下文匹配规则对相关表格进行提取,具体为:所述表格目录匹配规则,通过提取临时表单的标题,并校验其是否包含设定的标题关键词以及关系条件,进而输出两者之间的映射关系;所述表格列名匹配规则,通过提取临时表单的列名信息,并校验其是否包含设定的列名关键词以及关系条件,进而输出两者之间的映射关系;所述表格上下文匹配规则,通过提取临时表单的上下文信息,并校验其是否包含设定的上下文关键词以及关系条件,进而输出两者之间的映射关系;根据所得映射关系,提取出临时表单的相关表格。4.根据权利要求3所述的一种基于PDF财务数据报表的数据采集、处理的方法,其特征在于,所述步骤S5对所述临时表单中的列名信息进行采集,形成新的财务数据报表的列名,具体为:遍历临时表单的每行单元格,若读到行数据,遍历其模板字段;若无行数据,则解析临
时表单的名称,检查模板关键字段是否匹配到列名,全匹配则完成表格数据采集,否则未完成表格数据采集;若读取到模板字段,根据匹配字段获取对应的单元数据;若没读取到模板字段,则对下一行进行读取;若成功获取对应的单元数据,则采集数据值为该单元数据值;若为获取到对应的单元数据,判断其字段是否为报告期或公司名称,若是,则采集数据值为报告期或公司名称,否则采集数据值为空值;判断所述单元数据值类型,提取其单位作为采集数据值的单位;若所述单元数据值没有单位,则采集数据值的单位为空值,以此生成新的财务数据报表的列名。5.根据权利要求1所述的一种基于PDF财务数据报表的数据采集、处理的方法,其特征在于,所述步骤S5每种数据类型对应设置有一转换匹配单元模块,包括字段转换匹配模块、数值转换匹配模块和日期转换匹配模块,具体为:所述字段...

【专利技术属性】
技术研发人员:陈维东林恺牟宇龙
申请(专利权)人:厦门天健财智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1