一种用于增值税的数据清洗存储方法技术

技术编号:11475204 阅读:51 留言:0更新日期:2015-05-20 04:59
本发明专利技术提供一种用于增值税的数据清洗存储方法,其包括如下步骤:针对增值税业务监控所需税务数据进行业务分析;针对分析结果进行数据库表结构的设计;进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储。本发明专利技术可在庞大的数据里面快速清洗提取出为了检测增值税相关业务所需的数据,并且能够巧妙地存储起来为后续判断提供准备,提高了系统检测相关业务的效率。

【技术实现步骤摘要】
一种用于增值税的数据清洗存储方法
本专利技术涉及税控
,特别涉及一种用于增值税的数据清洗存储方法。
技术介绍
增值税防伪税控系统是国家金税工程的重要组成部分。通过运用数字密码和电子存储技术并强化专用发票的防伪功能,做到了成功遏制利用增值税专用发票偷税、漏税的现象。企业端开票软件是运用数字密码和电子信息存贮技术,强化专用发票的防伪功能,实现对增值税一般纳税人税源监控,用于企业开具增值税专用发票的系统。当前一般纳税人的税务数据主要来自企业端开票软件、防伪税控网络版和CTAIS(中国税收征管信息系统,ChinaTexAdministrationInformationSystem)核心征管三个系统。CTAIS是以国家税务总局制定的《税收征管业务规程》、《市局级税收征管业务需求》和《国家税务总局CTAIS开发要求概要》为基准开发的,它是面向全国各级税务机关的、统一的、大型的应用软件。以上三个系统记录了一般纳税人海量的税务数据,为各类税务系统的应用开发提供了原始的数据来源。因此,如何设计一种方法,能够将这些庞大的数据高效地清洗过滤进而存储起来,为这些业务应用提高效率,即为本领域技术人员的研究方向所在。
技术实现思路
本专利技术的目的是提供一种用于增值税的数据清洗存储方法,能够将杂乱冗余的原始数据进行ETL处理(提取、转换、加载),然后按设计的结构存储起来,为后续增值税常用业务监控做好数据准备。为了达到上述目的,本专利技术提供一种用于增值税的数据清洗存储方法,其包括如下步骤:针对增值税业务监控所需税务数据进行业务分析;针对分析结果进行数据库表结构的设计;进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储。其中,针对增值税业务监控所需税务数据进行业务分析是对以面向对象的分析技术分析所需的数据项和数据项之间的关联关系,是对增值税业务数据的监控,包括增值税进销项发票数据及税收征管数据。其中,针对分析结果进行数据库表结构的设计是以面向对象的设计思想,对从数据源提供的数据进行建模处理,产生ETL数据库结构模型,包括进项发票数据表、进项发票清单数据表、销项发票表、销项发票清单表、税务机关数据表、操作人员数据表及纳税人数据表。其中,ETL过程需要进行异常处理,并且形成了一系列的异常处理表,对一些特殊处理对象进行特殊处理。其中,进销项发票数据以及清单数据分别以认证时间和报税时间为分区键,每月一个分区进行分区优化存储,并且在相关字段上建立索引。其中,针对业务分析结果进行数据库表结构的设计采用相关聚合表技术,在考虑报表设计时,通过预处理事先将计算好的汇总数据保存到数据表中,直接提供给用户查询。其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,是清洗掉无关的、冗余的、杂乱的数据,处理特殊含义的数据,将最终结果按数据库设计存储起来。其中,对于ETL过程,需要从源数据库中提取所需要的数据,并且规范数据格式,存储在ETL数据模型中,并对数据的准确性、处理的性能和业务扩展上进行关注。其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,在提取原始数据时,根据异常处理表去掉或替换异常字符,在提取过来以后可能会发现个别数据填写的内容不正确,是通过后台管理程序更正这些数据后,标注这些数据不再被同步更新,以规范原始数据。其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,源数据的ETL过程具体包括:进项发票数据提取、转换、加载过程;进项发票清单数据提取、转换、加载过程;销项发票数据提取、转换、加载过程;销项发票清单数据提取、转换、加载过程;税务机关数据提取、转换、加载过程;操作人员数据提取、转换、加载过程及纳税人数据提取、转换、加载过程。与现有技术相比,本专利技术的有益效果在于:在庞大的数据里面快速清洗提取出为了检测增值税相关业务所需的数据,并且能够巧妙地存储起来为后续判断提供准备,提高了系统检测相关业务的效率。附图说明图1为本专利技术实施例所提供的一种用于增值税的数据清洗存储方法流程图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点作更详细的说明。如图1所示,为本专利技术实施例所提供的一种用于增值税的数据清洗存储方法流程图,本专利技术的一种用于增值税的数据清洗存储方法包括以下步骤:步骤S1:针对增值税业务监控所需税务数据进行业务分析;在本步骤中,是以面向对象的分析技术(OOA)分析所需的数据项和数据项之间的关联关系,为数据库的表结构设计提供依据。在业务上,是对增值税业务数据的监控主要包括:纳税人分析(利用关联关系分析技术,确定纳税人所涉及到商品及其构成)、疑点监控(主要包括对增值税阴阳票监控、滞留票监控、进项一号多名发票的监控)、查询统计(主要包括对增值税监控所涉及的纳税人、进项发票、销项发票信息进行查询)三个功能模块;系统主要操作对象为:增值税进销项发票数据(主要来源于防伪税控网络版所提供的抄报认证快照数据,包括抄报发票存根联明细、抄报非抵扣存根联明细、认证发票抵扣联明细等数据,以及企业端远程抄报认证软件所采集的进销项发票七要素、发票清单、发票扫描图片等数据)和税收征管数据(主要来源于中国税收征管信息系统CTAIS包括税务机关数据、操作人员、纳税人、行业等数据)。步骤S2:针对步骤S1的分析结果进行数据库表结构的设计;本步骤是针对步骤S1的结果(主要包括增值税业务监控所需要数据项以及数据项之间的关系),进行数据库的设计,同时充分考虑查询效率、数据规模等因素。根据业务需要,我们以面向对象的设计思想(OOD)对从数据源提供的数据进行建模处理,产生ETL数据库结构模型,主要包括进项发票数据表、进项发票清单数据表、销项发票表、销项发票清单表、税务机关数据表、操作人员数据表、纳税人数据表等;在异常处理方面,同时由于其它第三方信息管理系统数据不准确,为了避免由于这些不准确数据造成本系统数据分析结果的不正确,ETL过程需要进行异常处理,并且形成了一系列的异常处理表,对一些特殊处理对象进行特殊处理;在性能优化方面,第一,为了提高存取的效率,进销项发票数据以及清单数据分别以认证时间和报税时间为分区键,每月一个分区进行分区优化存储,并且在相关字段上建立索引;第二,为了提高用户体验,本系统采用相关聚合表技术,在考虑报表设计时,通过预处理事先将计算好的汇总数据保存到数据表中,直接提供给用户查询,大量缩短查询响应时间。步骤S3:对源数据进行清洗和存储。本步骤是清洗掉无关的、冗余的、杂乱的数据,处理特殊含义的数据,将最终结果按步骤S2的数据库设计存储起来。对于ETL过程,我们需要从源数据库中提取所需要的数据,并且规范数据格式,存储在ETL数据模型中。进项发票数据主要来源于网络版认证发票抵扣联明细数据和企业端抵扣联明细数据(以发票代码和发票号码字段相关联);进项发票清单数据主要来源于企业端抵扣联明细清单数据,并关联进项发票数据;销项发票数据主要来源于网络版抄报发票存根联明细数据和企业端存根联明细数据(以发票代码和发票号码字段相关联);销项发票清单数据主要来源于企业端存根联明细清单数据,并关联销项发票数据;税务机关数据主要从C本文档来自技高网...
一种用于增值税的数据清洗存储方法

【技术保护点】
一种用于增值税的数据清洗存储方法,其特征在于,其包括如下步骤:针对增值税业务监控所需税务数据进行业务分析;针对分析结果进行数据库表结构的设计;进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储。

【技术特征摘要】
1.一种用于增值税的数据清洗存储方法,其特征在于,其包括如下步骤:针对增值税业务监控所需税务数据进行业务分析;针对分析结果进行数据库表结构的设计;进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储;其中,针对分析结果进行数据库表结构的设计是以面向对象的设计思想,对从数据源提供的数据进行建模处理,产生ETL数据库结构模型,包括进项发票数据表、进项发票清单数据表、销项发票表、销项发票清单表、税务机关数据表、操作人员数据表及纳税人数据表;其中,ETL过程需要进行异常处理,并且形成了一系列的异常处理表,对一些特殊处理对象进行特殊处理;其中,进销项发票数据以及清单数据分别以认证时间和报税时间为分区键,每月一个分区进行分区优化存储,并且在相关字段上建立索引。2.根据权利要求1所述的一种用于增值税的数据清洗存储方法,其特征在于,针对增值税业务监控所需税务数据进行业务分析是对以面向对象的分析技术分析所需的数据项和数据项之间的关联关系,是对增值税业务数据的监控,包括增值税进销项发票数据及税收征管数据。3.根据权利要求1所述的一种用于增值税的数据清洗存储方法,其特征在于,针对业务分析结果进行数据库表结构的设计采用相关聚合表技术,在考虑报表设计时,通过预处理事先将计算好的汇总数据保存到数据表中,直接提供给用户查询。4.根据权利要求1所述的一种用于增值税的数据...

【专利技术属性】
技术研发人员:房玉伟陈博耿立家陈勇潘竞旭谢宇
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1