This design implements a method of monitoring the annual taxable sales of small scale taxpayers based on the large data SPARK framework. By analyzing the sales invoice data of small scale taxpayers, the annual tax sales are calculated to monitor whether small scale taxpayers reach the standard, and to replace the data of the relational database with sparkSQL. The calculation process is improved, and the accuracy and computation speed of the monitoring are improved. The methods described include: obtaining the sales invoice table of small scale taxpayers and the taxpayer's information table; cleaning the unrelated, redundant and messy field information; connecting the small-scale taxpayer's sales invoice and the taxpayer's information table to obtain all the small scale registered in the information table for more than one year. The taxpayer's field information; the classification of the small scale taxpayers and the creation of the taxpayer's fact table; calculate the annual tax sales of each small scale taxpayer; compare with the corresponding standards for the identification of the standard, and monitor the results of the comparison.
【技术实现步骤摘要】
基于SPARK的小规模纳税人年应税销售额的监控方法及系统
本专利技术涉及税务监管领域,并且更具体地,涉及一种基于大数据SPARK框架对小规模纳税人年应税销售额进行监控的方法及系统。
技术介绍
在税务监管的工作中,税务人员发现很多小规模纳税人达到一般纳税人认定标准后,不但不申请一般纳税人资格认定,反而采取各种办法来规避,造成部分达标小规模纳税人申报额偏低、虚假注销、非正常户增加、注销税务登记后迟迟不办理新的营业执照及税务登记的现象。达标小规模纳税人不愿意转换为一般纳税人的原因如下:1、行业的特殊性使一般纳税人资格认定后税负有较大增加;2、一般纳税人简易征收办法存在局限性;3、对增值税专用发票取得的非依赖性;4、个别行业经营核算体制与增值税一般纳税人核算原则发生冲突。为了加大对达标小规模纳税人的管理力度,除了加强政策的宣传辅导和加强注销业户审核以外,还需要加强对小规模纳税人的有计划、有重点的监控。SPARK是基于内存的,是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目。SPARK最大的优势在于速度,在迭代处理计算方面比Hadoop快100倍以上;SPARK另外一个无可取代的优势是:“OneStacktorulethemall”,SPARK采用一个统一的技术堆栈解决了大数据计算的所有核心问题,这直接奠定了其大数据领域的核心地位。随着小规模纳税人转变为一般纳税人标准的降低以及税务部门网络化管理进度的加快,小规模纳税人的发票数据量大幅度增加,传统的数据处理方式的弊端开始显现,为了达到高效监控的目的,势必要引入新的数据处理手段。
技术实现思路
...
【技术保护点】
1.一种基于大数据SPARK框架对小规模纳税人年应税销售额进行监控的方法,包括:获取电子底账库中小规模纳税人的销项发票表;获取金税三期库中小规模纳税人的纳税人信息表;对销项发票表和纳税人信息表中无关的、冗余的以及杂乱的字段信息进行清洗;利用纳税人识别号字段和开业登记日期字段将销项发票表和纳税人信息表进行关联,获取关联后信息表内注册登记时间在一年以上的所有小规模纳税人的所有字段信息,并存储至SPARK框架下的数据仓库表中;使用SPARK框架下的分析工具sparkSQL调用行业明细代码字段和经营范围字段对注册登记时间在一年以上的小规模纳税人进行分类并创建纳税人事实表以存储分类结果;使用分析工具sparkSQL计算每个小规模纳税人的年应税销售额;将小规模纳税人的年应税销售额与其对应的达标认定标准进行对比,并对对比结果进行监控。
【技术特征摘要】
1.一种基于大数据SPARK框架对小规模纳税人年应税销售额进行监控的方法,包括:获取电子底账库中小规模纳税人的销项发票表;获取金税三期库中小规模纳税人的纳税人信息表;对销项发票表和纳税人信息表中无关的、冗余的以及杂乱的字段信息进行清洗;利用纳税人识别号字段和开业登记日期字段将销项发票表和纳税人信息表进行关联,获取关联后信息表内注册登记时间在一年以上的所有小规模纳税人的所有字段信息,并存储至SPARK框架下的数据仓库表中;使用SPARK框架下的分析工具sparkSQL调用行业明细代码字段和经营范围字段对注册登记时间在一年以上的小规模纳税人进行分类并创建纳税人事实表以存储分类结果;使用分析工具sparkSQL计算每个小规模纳税人的年应税销售额;将小规模纳税人的年应税销售额与其对应的达标认定标准进行对比,并对对比结果进行监控。2.根据权利要求1所述的方法,其特征在于,所述无关的、冗余的以及杂乱的字段信息为与小规模纳税人年应税销售额计算无关的字段、字段内数据不完整的字段以及格式不统一的字段。3.根据权利要求1所述的方法,其特征在于,所述小规模纳税人的类别包括:从事生产货物类、提供应税劳务类、从事货物批发或零售类、提供运输类和现代服务类。4.根据权利要求3所述的方法,其特征在于,所述小规模纳税人的类别在所述纳税人事实表中以纳税人类别代码字段标识。5.根据权利要求1所述的方法,其特征在于,小规模纳税人的年应税销售额的计算公式为:年应税销售额=含税销售额/(1+征收率)。6.根据权利要求3所述的方法,其特征在于,所述年应税销售额的认定标准为:小规模纳税人的类别为从事生产货物类或提供应税劳务类,且年应税销售额≥50万元时,则需申请一般纳税人;小规模纳税人的类别为从事货物批发或零售类,且年应税销售额≥80万元时,则需申请一般纳税人;以及小规模纳税人的类别为提供运输类和现代服务类,且年应税销售额≥500万元时,则需申请一般纳税人。7.一种基于大数据S...
【专利技术属性】
技术研发人员:刘丹,陈益梦,范钢,田宜喜,潘竟旭,谢宇,陈懿,
申请(专利权)人:航天信息股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。