一种基于分析工具SPARK的增值税数据整合方法及系统技术方案

技术编号:18398503 阅读:44 留言:0更新日期:2018-07-08 19:20
本发明专利技术通过一种基于分析工具SPARK的增值税数据整合方法及系统,为税务机关提供了一种常用的增值税分析的数据模型,可以在税务局规定时间内完成其业务需求对应的数据处理过程,帮助税务局更好的分析增值税数据、监控疑点纳税人,是有效监控和分析不法企业偷逃税款、保障税务收入的重要手段;提高了税务机关纳税评估、税务稽查等方面的工作效率。所述方法包括:使用数据抽取工具从电子底账库和金税三期库中抽取原始数据;使用SPARK对所述原始数据进行数据补全以及清理处理,并按照增值税分析需求形成需求表,并进行数据整合以形成需求数据模型将需求数据模型存储在数据仓库中;使用数据抽取工具将数据仓库中的需求数据模型导入至Greenplum数据库中进行长期存储。

【技术实现步骤摘要】
一种基于分析工具SPARK的增值税数据整合方法及系统
本专利技术涉及数据处理领域,并且更具体地,涉及一种基于分析工具SPARK的增值税数据整合方法及系统。
技术介绍
随着“营改增”的推广,增值税纳税人以及增值税发票数据都迎来了一个巨大的增长,截止目前增值税纳税人已突破千万,每天开票量500余万份,开票金额3500多亿元,海量增值税发票数据需要分析处理,面对这样的数据量,现有数据处理方法及数据模型已经不能满足一些增值税发票大省的需要,例如:山东、江苏、广东等省。Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架,Spark拥有HadoopMapReduce所具有的优点,但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Greenplum数据库的架构采用了MPP(大规模并行处理)。在MPP系统中,每个SMP节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的CPU不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(DataRedistribution)。与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。因此需要一种数据整合方法,完成税务业务需求所需的数据处理,以帮助税务局更好的分析增值税数据,监控纳税人。
技术实现思路
为了解决上述问题,根据本专利技术的一个方面,提出了一种基于分析工具SPARK的增值税数据整合方法,包括:使用数据抽取工具从电子底账库和金税三期库中抽取原始数据,并且将所述原始数据存分别存储在数据仓库内电子抵账库账户存储区和金税三期用户存储区中;使用SPARK对所述原始数据进行数据补全以及清理处理,并按照增值税分析需求形成需求表,将需求表进行数据整合以形成需求数据模型并且将需求数据模型存储在数据仓库中;以及使用数据抽取工具将数据仓库中的需求数据模型导入至Greenplum数据库中以进行长期存储。优选地,所述抽取原始数据为从电子底账库中获取货运专票发票信息表、机动车发票信息表以及增值税发票信息表;从金税三期库中获取登记纳税人信息、登记纳税人信息扩展、认定纳税人资格等纳税人信息表;行业、行业大类、行业明细等行业表;发票票种、发票种类、发票销售等发票相关表;以及代码税务机关表;优选地,所述数据补全为:根据查找字段关联表对原始数据中存在字段缺失问题的数据进行补全。优选地,所述数据清理为对原始数据表中与增值税分析需求无关的字段进行清理。优选地,所述需求表包括:发票事实表、纳税人维表、税务机关维表、行业维表、时间维表以及地区维表。根据本专利技术的另一方面,提出了一种基于分析工具SPARK的增值税数据整合系统,包括:数据抽取工具,用于将原始数据从电子底账库和金税三期库中抽取并将原始数据保存至数据仓库中,以及将需求模型从数据仓库中抽取并保存至Greenplum数据库中;数据仓库,用于存储原始数据以及需求数据模型;数据处理单元,将原始数据进行数据补全以及清理处理,并按照增值税分析需求形成需求表,将需求表进行数据整合以形成需求数据模型;Greenplum数据库,用于长期存储需求数据模型,并提供数据查询功能。优选地,所述原始数据包括:电子底账库中货运专票发票信息表、机动车发票信息表以及增值税发票信息表;金税三期库中登记纳税人信息、登记纳税人信息扩展、认定纳税人资格等纳税人信息表;行业、行业大类、行业明细等行业表;发票票种、发票种类、发票销售等发票相关表;以及代码税务机关表。优选地,所述数据补全为:对原始数据中存在字段缺失问题的数据根据查找字段关联表进行补全。优选地,所述数据清理为对原始数据表中与增值税分析需求无关的字段进行清理。优选地,所述需求表包括:发票事实表、纳税人维表、税务机关维表、行业维表、时间维表以及地区维表。本专利技术通过一种基于分析工具SPARK的增值税数据整合方法及系统,为税务机关提供了一种常用的增值税分析的数据模型,可以在税务局规定时间内完成其业务需求对应的数据处理过程,可以帮助税务局更好的分析增值税数据、监控疑点纳税人,是有效监控和分析不法企业偷逃税款、保障税务收入的重要手段;提高了税务机关纳税评估、税务稽查等方面的工作效率。附图说明通过参考下面的附图,可以更为完整地理解本专利技术的示例性实施方式:图1为根据本专利技术优选实施例的增值税数据整合方法流程图;以及图2为根据本专利技术优选实施例的增值税数据整合系统结构图。具体实施方式现在参考附图介绍本专利技术的示例性实施方式,然而,本专利技术可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本专利技术,并且向所属
的技术人员充分传达本专利技术的范围。对于表示在附图中的示例性实施方式中的术语并不是对本专利技术的限定。在附图中,相同的单元/元件使用相同的附图标记。除非另有说明,此处使用的术语(包括科技术语)对所属
的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。图1为根据本专利技术优选实施例的增值税数据整合方法流程图。如图1所示,本专利技术的实施方式提供一种基于分析工具SPARK的增值税数据整合方法,利用数据抽取工具从电子底账库和金税三期库中抽取原始数据并保存至数据仓库中;利用SPARK对数据仓库的原始数据进行数据补全和清理处理,并根据增值税分析需求形成的需求表进行数据整合以形成需求数据模型;最后利用数据抽取工具将需求数据模型存储至Greenplum数据库中以进行长期存储。由于在数据整合过程中除去了与需求无关的字段,根据需求形成了数据模型,帮助税务局规定时间内完成其业务需求对应的数据处理过程,更加快速准确的分析增值税数据,方便后续工作进行。方法100从步骤101开始,在步骤101中,使用数据抽取工具从电子底账库和金税三期库中抽取原始数据,并且将所述原始数据存分别存储在数据仓库内电子抵账库账户存储区和金税三期用户存储区中。优选地,所述数据抽取工具又称为sqoop工具,主要用于在数据仓库与传统的数据库(如mysql、postgresql、oracle等)间进行数据的抽取和传递,在本专利技术中,电子底账库和金税三期库均为oracle数据库。优选地,所述抽取原始数据为从电子底账库中获取货运专票发票信息表、机动车发票信息表以及增值税发票信息表;从金税三期库中获取登记纳税人信息、登记纳税人信息扩展、认定纳税人资格等纳税人信息表;行业、行业大类、行业明细等行业表;发票票种、发票种类、发票销售等发票相关表;以及代码税务机关表。优选地,数据仓库可以将结构化的数据文件映本文档来自技高网
...

【技术保护点】
1.一种基于分析工具SPARK的增值税数据整合方法,包括:使用数据抽取工具从电子底账库和金税三期库中抽取原始数据,并且将所述原始数据存分别存储在数据仓库内电子抵账库账户存储区和金税三期用户存储区中;使用SPARK对所述原始数据进行数据补全以及清理处理,并按照增值税分析需求形成需求表,将需求表进行数据整合以形成需求数据模型并且将需求数据模型存储在数据仓库中;以及使用数据抽取工具将数据仓库中的需求数据模型导入至Greenplum数据库中以进行长期存储。

【技术特征摘要】
1.一种基于分析工具SPARK的增值税数据整合方法,包括:使用数据抽取工具从电子底账库和金税三期库中抽取原始数据,并且将所述原始数据存分别存储在数据仓库内电子抵账库账户存储区和金税三期用户存储区中;使用SPARK对所述原始数据进行数据补全以及清理处理,并按照增值税分析需求形成需求表,将需求表进行数据整合以形成需求数据模型并且将需求数据模型存储在数据仓库中;以及使用数据抽取工具将数据仓库中的需求数据模型导入至Greenplum数据库中以进行长期存储。2.根据权利要求1所述的方法,其特征在于,所述抽取原始数据为从电子底账库中获取货运专票发票信息表、机动车发票信息表以及增值税发票信息表;从金税三期库中获取登记纳税人信息、登记纳税人信息扩展、认定纳税人资格等纳税人信息表;行业、行业大类、行业明细等行业表;发票票种、发票种类、发票销售等发票相关表;以及代码税务机关表。3.根据权利要求1所述的方法,其特征在于,所述数据补全为:根据查找字段关联表对原始数据中存在字段缺失问题的数据进行补全。4.根据权利要求1所述的方法,其特征在于,所述数据清理为对原始数据表中与增值税分析需求无关的字段进行清理。5.根据权利要求1所述的方法,其特征在于,所述需求表包括:发票事实表、纳税人维表、税务机关维表、行业维表、时间维表以及地区...

【专利技术属性】
技术研发人员:哈达潘竟旭黄嵘吴伟钢范钢谢宇陈荣兴
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1