基于SPARK的小规模纳税人年应税销售额的监控方法及系统技术方案

技术编号:18367922 阅读:27 留言:0更新日期:2018-07-05 09:49
本发明专利技术设计实现了一种基于大数据SPARK框架对小规模纳税人年应税销售额进行监控的方法,通过分析小规模纳税人的销项发票数据来计算其年应税销售额,进而监控小规模纳税人是否达标,并使用sparkSQL代替关系型数据库的数据处理计算过程,提高了监控的准确性和计算速率。所述方法包括:获取小规模纳税人的销项发票表和纳税人信息表;对无关的、冗余的以及杂乱的字段信息进行清洗;关联小规模纳税人的销项发票表和纳税人信息表,获取关联后信息表内注册登记时间在一年以上的所有小规模纳税人的字段信息;进行小规模纳税人的分类并创建纳税人事实表;计算每个小规模纳税人的年应税销售额;与对应的达标认定标准进行对比,并对对比结果进行监控。

Monitoring method and system of small taxpayer's annual taxable sales volume based on SPARK

This design implements a method of monitoring the annual taxable sales of small scale taxpayers based on the large data SPARK framework. By analyzing the sales invoice data of small scale taxpayers, the annual tax sales are calculated to monitor whether small scale taxpayers reach the standard, and to replace the data of the relational database with sparkSQL. The calculation process is improved, and the accuracy and computation speed of the monitoring are improved. The methods described include: obtaining the sales invoice table of small scale taxpayers and the taxpayer's information table; cleaning the unrelated, redundant and messy field information; connecting the small-scale taxpayer's sales invoice and the taxpayer's information table to obtain all the small scale registered in the information table for more than one year. The taxpayer's field information; the classification of the small scale taxpayers and the creation of the taxpayer's fact table; calculate the annual tax sales of each small scale taxpayer; compare with the corresponding standards for the identification of the standard, and monitor the results of the comparison.

【技术实现步骤摘要】
基于SPARK的小规模纳税人年应税销售额的监控方法及系统
本专利技术涉及税务监管领域,并且更具体地,涉及一种基于大数据SPARK框架对小规模纳税人年应税销售额进行监控的方法及系统。
技术介绍
在税务监管的工作中,税务人员发现很多小规模纳税人达到一般纳税人认定标准后,不但不申请一般纳税人资格认定,反而采取各种办法来规避,造成部分达标小规模纳税人申报额偏低、虚假注销、非正常户增加、注销税务登记后迟迟不办理新的营业执照及税务登记的现象。达标小规模纳税人不愿意转换为一般纳税人的原因如下:1、行业的特殊性使一般纳税人资格认定后税负有较大增加;2、一般纳税人简易征收办法存在局限性;3、对增值税专用发票取得的非依赖性;4、个别行业经营核算体制与增值税一般纳税人核算原则发生冲突。为了加大对达标小规模纳税人的管理力度,除了加强政策的宣传辅导和加强注销业户审核以外,还需要加强对小规模纳税人的有计划、有重点的监控。SPARK是基于内存的,是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目。SPARK最大的优势在于速度,在迭代处理计算方面比Hadoop快100倍以上;SPARK另外一个无可取代的优势是:“OneStacktorulethemall”,SPARK采用一个统一的技术堆栈解决了大数据计算的所有核心问题,这直接奠定了其大数据领域的核心地位。随着小规模纳税人转变为一般纳税人标准的降低以及税务部门网络化管理进度的加快,小规模纳税人的发票数据量大幅度增加,传统的数据处理方式的弊端开始显现,为了达到高效监控的目的,势必要引入新的数据处理手段。
技术实现思路
为了解决上述问题,根据本专利技术的一方面,提供一种基于大数据SPARK框架对小规模纳税人年应税销售额进行监控的方法,包括:获取电子底账库中小规模纳税人的销项发票表;获取金税三期库中小规模纳税人的纳税人信息表;对销项发票表和纳税人信息表中无关的、冗余的以及杂乱的字段信息进行清洗;利用纳税人识别号字段和开业登记日期字段将销项发票表和纳税人信息表进行关联,获取关联后信息表内注册登记时间在一年以上的所有小规模纳税人的所有字段信息,并存储至SPARK框架下的数据仓库表中;使用SPARK框架下的分析工具sparkSQL调用行业明细代码字段和经营范围字段对注册登记时间在一年以上的小规模纳税人进行分类并创建纳税人事实表以存储分类结果;使用分析工具sparkSQL计算每个小规模纳税人的年应税销售额;将小规模纳税人的年应税销售额与其对应的达标认定标准进行对比,并对对比结果进行监控。优选地,所述无关的、冗余的以及杂乱的字段信息为与小规模纳税人年应税销售额计算无关的字段、字段内数据不完整的字段以及格式不统一的字段。优选地,所述小规模纳税人的类别包括:从事生产货物类、提供应税劳务类、从事货物批发或零售类、提供运输类和现代服务类。优选地,所述小规模纳税人的类别在所述纳税人事实表中以纳税人类别代码字段标识。优选地,小规模纳税人的年应税销售额的计算公式为:年应税销售额=含税销售额/(1+征收率)。优选地,所述年应税销售额的认定标准为:小规模纳税人的类别为从事生产货物类或提供应税劳务类,且年应税销售额≥50万元时,则需申请一般纳税人;小规模纳税人的类别为从事货物批发或零售类,且年应税销售额≥80万元时,则需申请一般纳税人;以及小规模纳税人的类别为提供运输类和现代服务类,且年应税销售额≥500万元时,则需申请一般纳税人。根据本专利技术的另一方面,提供了一种基于大数据SPARK框架对小规模纳税人年应税销售额进行监控的系统,包括:信息表获取单元、清洗单元、信息表关联单元、分类单元、计算单元、对比单元以及存储单元,其中信息表获取单元,用于获取电子底账库中小规模纳税人的销项发票表以及抽取金税三期库中小规模纳税人的纳税人信息表;清洗单元,用于清洗销项发票表和纳税人信息表内无关的、冗余的以及杂乱的字段信息;信息表关联单元,利用纳税人识别号字段和开业登记日期字段将销项发票表和纳税人信息表进行关联,获取关联后信息表内注册登记时间在一年以上的所有小规模纳税人的字段信息;分类单元,使用分析工具sparkSQL利用行业明细代码字段和经营范围字段对注册登记时间在一年以上的小规模纳税人进行分类,并创建纳税人事实表以存储分类结果;计算单元,使用分析工具sparkSQL计算每个小规模纳税人的年应税销售额;对比单元,小规模纳税人的年应税销售额与其对应的达标认定标准进行对比,得到对比结果;以及存储单元,用于存储数据仓库表、纳税人事实表以及对比结果。优选地,所述系统还包括:监控单元,根据对比结果对符合一般纳税人条件的小规模纳税人是否在规定时间内完成小规模纳税人升级为一般纳税人的流程。优选地,所述小规模纳税人的类别包括:从事生产货物类、提供应税劳务类、从事货物批发或零售类、提供运输类和现代服务类。优选地,小规模纳税人的年应税销售额的计算公式为:年应税销售额=含税销售额/(1+征收率)。优选地,所述年应税销售额的认定标准为:小规模纳税人的类别为从事生产货物类或提供应税劳务类,且年应税销售额≥50万元时,则需申请一般纳税人;小规模纳税人的类别为从事货物批发或零售类,且年应税销售额≥80万元时,则需申请一般纳税人;小规模纳税人的类别为提供运输类和现代服务类,且年应税销售额≥500万元时,则需申请一般纳税人。本专利技术设计实现了一种基于大数据SPARK框架对小规模纳税人年应税销售额进行监控的方法,通过分析小规模纳税人的销项发票数据来计算其年应税销售额,进而监控小规模纳税人是否达标,并使用sparkSQL代替关系型数据库的存储过程进行数据处理计算,提高了监控的准确性和计算速率。本专利技术的设计实现加大了对涉嫌偷税的小规模纳税人的打击力度、减少大量的税款流失、提高了税务安全、对行业公平竞争也有一定的保障作用。附图说明通过参考下面的附图,可以更为完整地理解本专利技术的示例性实施方式:图1为根据本专利技术优选实施例的小规模纳税人年应税销售额的监控方法流程图;以及图2为根据本专利技术优选实施例的小规模纳税人年应税销售额的监控系统结构图。具体实施方式现在参考附图介绍本专利技术的示例性实施方式,然而,本专利技术可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本专利技术,并且向所属
的技术人员充分传达本专利技术的范围。对于表示在附图中的示例性实施方式中的术语并不是对本专利技术的限定。在附图中,相同的单元/元件使用相同的附图标记。除非另有说明,此处使用的术语(包括科技术语)对所属
的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。图1为根据本专利技术优选实施例的小规模纳税人年应税销售额的监控方法流程图。如图1所示,本专利技术的优选实施例提供了一种对小规模纳税人年应税销售额的监控方法100,通过方法100,获取电子底账库中小规模纳税人的销项发票表,获取金税三期库中小规模纳税人的纳税人信息表,进行无关、冗余字段后,将销项发票表和纳税人信息表进行关联,并获取关联后信息表内注册登记时间在一年以上的所有小规模纳税人的字段信息,使用本文档来自技高网
...
基于SPARK的小规模纳税人年应税销售额的监控方法及系统

【技术保护点】
1.一种基于大数据SPARK框架对小规模纳税人年应税销售额进行监控的方法,包括:获取电子底账库中小规模纳税人的销项发票表;获取金税三期库中小规模纳税人的纳税人信息表;对销项发票表和纳税人信息表中无关的、冗余的以及杂乱的字段信息进行清洗;利用纳税人识别号字段和开业登记日期字段将销项发票表和纳税人信息表进行关联,获取关联后信息表内注册登记时间在一年以上的所有小规模纳税人的所有字段信息,并存储至SPARK框架下的数据仓库表中;使用SPARK框架下的分析工具sparkSQL调用行业明细代码字段和经营范围字段对注册登记时间在一年以上的小规模纳税人进行分类并创建纳税人事实表以存储分类结果;使用分析工具sparkSQL计算每个小规模纳税人的年应税销售额;将小规模纳税人的年应税销售额与其对应的达标认定标准进行对比,并对对比结果进行监控。

【技术特征摘要】
1.一种基于大数据SPARK框架对小规模纳税人年应税销售额进行监控的方法,包括:获取电子底账库中小规模纳税人的销项发票表;获取金税三期库中小规模纳税人的纳税人信息表;对销项发票表和纳税人信息表中无关的、冗余的以及杂乱的字段信息进行清洗;利用纳税人识别号字段和开业登记日期字段将销项发票表和纳税人信息表进行关联,获取关联后信息表内注册登记时间在一年以上的所有小规模纳税人的所有字段信息,并存储至SPARK框架下的数据仓库表中;使用SPARK框架下的分析工具sparkSQL调用行业明细代码字段和经营范围字段对注册登记时间在一年以上的小规模纳税人进行分类并创建纳税人事实表以存储分类结果;使用分析工具sparkSQL计算每个小规模纳税人的年应税销售额;将小规模纳税人的年应税销售额与其对应的达标认定标准进行对比,并对对比结果进行监控。2.根据权利要求1所述的方法,其特征在于,所述无关的、冗余的以及杂乱的字段信息为与小规模纳税人年应税销售额计算无关的字段、字段内数据不完整的字段以及格式不统一的字段。3.根据权利要求1所述的方法,其特征在于,所述小规模纳税人的类别包括:从事生产货物类、提供应税劳务类、从事货物批发或零售类、提供运输类和现代服务类。4.根据权利要求3所述的方法,其特征在于,所述小规模纳税人的类别在所述纳税人事实表中以纳税人类别代码字段标识。5.根据权利要求1所述的方法,其特征在于,小规模纳税人的年应税销售额的计算公式为:年应税销售额=含税销售额/(1+征收率)。6.根据权利要求3所述的方法,其特征在于,所述年应税销售额的认定标准为:小规模纳税人的类别为从事生产货物类或提供应税劳务类,且年应税销售额≥50万元时,则需申请一般纳税人;小规模纳税人的类别为从事货物批发或零售类,且年应税销售额≥80万元时,则需申请一般纳税人;以及小规模纳税人的类别为提供运输类和现代服务类,且年应税销售额≥500万元时,则需申请一般纳税人。7.一种基于大数据S...

【专利技术属性】
技术研发人员:刘丹陈益梦范钢田宜喜潘竟旭谢宇陈懿
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1