一种基于纳税人经营特征的优质纳税人识别方法技术

技术编号:34813427 阅读:16 留言:0更新日期:2022-09-03 20:22
本发明专利技术属于财税管理技术领域,具体涉及一种基于纳税人经营特征的优质纳税人识别方法。所述方法执行以下步骤:获取纳税人的税务数据;所述数据包括:纳税人信息数据和纳税人行为数据;所述纳税人信息数据包括:纳税人ID、纳税人年龄、纳税人所处地域和纳税人所处行业;所述纳税人行为数据包括:历史行为数据和当前行为数据;所述历史行为数据包括:历史纳税金额和历史纳税时间;所述当前行为数据包括:当前纳税金额和当前纳税时间;再基于获取到的数据进行不同的权重分配和异常识别,以找到优质纳税人;其通过多次异常分析和不同方向的异常分析对纳税人的行为进行了更为科学的识别和判断,提升了优质纳税人识别的准确率。提升了优质纳税人识别的准确率。提升了优质纳税人识别的准确率。

【技术实现步骤摘要】
一种基于纳税人经营特征的优质纳税人识别方法


[0001]本专利技术属于财税管理
,具体涉及移动通信数据广播系统。

技术介绍

[0002]税收是国家公共财政最主要的收入形式和来源。尽管增值税防伪税控系统的推广使用,是税收征管和增加国家收入的一个强有力手段,但在税收风险管理方面仍然不足,还是主要依托于税收分析人员的业务经验,不仅主观成分浓厚,准确性不强,而且效率低下,尤其在虚开发票企业和走逃企业的判别上。借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常,筛选出优质纳税人,不仅可以提升可疑企业的监控识别效果和识别效率,而且有助于维持正常的税收和经济秩序。
[0003]专利号为CN201410328391.XA的专利公开了一种基于纳税人利益关联网络的可疑纳税人识别方法,其基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人。整体工作流程为:首先,对纳税人利益关联网络<V,E>进行拓扑特征的分析。采用Motif方法寻找频繁子图,并根据度中心度和聚集系数拓扑指标寻找正常和可疑纳税人的差异;其次,选择拓扑特征,使用C4.5分类器实验,从而实现自动识别可疑纳税人的功能。其依托于利益关联网络,进行可以纳税人的识别,但识别过程依然基于中心聚类,使得识别准确率和效率都不能让人满意。

技术实现思路

[0004]本专利技术的主要目的在于提供一种基于纳税人经营特征的优质纳税人识别方法,其通过多次异常分析和不同方向的异常分析对纳税人的行为进行了更为科学的识别和判断,提升了优质纳税人识别的准确率。
[0005]为达到上述目的,本专利技术的技术方案是这样实现的:
[0006]一种基于纳税人经营特征的优质纳税人识别方法,其特征在于,所述方法执行以下步骤:
[0007]步骤1:获取纳税人的税务数据;所述数据包括:纳税人信息数据和纳税人行为数据;所述纳税人信息数据包括:纳税人ID、纳税人年龄、纳税人所处地域和纳税人所处行业;所述纳税人行为数据包括:历史行为数据和当前行为数据;所述历史行为数据包括:历史纳税金额和历史纳税时间;所述当前行为数据包括:当前纳税金额和当前纳税时间;
[0008]步骤2:进行第一次比较分析,具体包括:基于每个纳税人的历史行为数据进行异常分析,找到该纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数;
[0009]步骤3:进行第一次权重分配,具体包括:基于每个纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数,为每个纳税人分配纳税金额权重值和纳税时间权重值;所述纳税金额权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次
数的总和值的比值;所述纳税人的纳税时间权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值;
[0010]步骤4:进行第二次比较分析,具体包括:将每个纳税人的纳税人信息数据与其他纳税人的纳税人信息数据进行对应项的异常分析,包括:基于每个纳税人年龄与其他纳税人年龄的差异,得到年龄异常结果;基于每个纳税人所处行业与其他纳税人所处行业的差异,得到行业异常结果;
[0011]步骤5:进行第二次权重分配,具体包括:基于每个纳税人的年龄异常结果和行业异常结果进行权重分配,为每个纳税人分配年龄异常权重值和行业异常权重值;
[0012]步骤6:进行权重归一化处理,具体包括:将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理,得到每个纳税人的异常权重;
[0013]步骤7:按照设定的周期,对纳税人的当前行为数据循环执行步骤2至步骤6,更新每个纳税人的异常权重;在每个时刻,筛选出异常权重的值最小的纳税人或异常权重的值在设定阈值范围内的纳税人作为优质纳税人。
[0014]进一步的,所述步骤2中进行第一次比较分析的方法包括:分别获取历史行为数据中的历史纳税金额和历史纳税时间;对历史纳税金额进行基于时间间隔的异常分析,找到出现异常的历史纳税金额的次数;对历史纳税金额进行基于数据异常的异常分析,找到出现异常的历史纳税时间的次数。
[0015]进一步的,对历史纳税时间进行基于数据异常的异常分析的方法包括:设定一个时间间隔,将该将时间间隔作为第一随机变量;将历史纳税时间按照设定的时间间隔划分为多个子块;设定一个第一周期,所述第一周期的长度小于或等于时间间隔的3分之一,基于所述时间间隔内对应的每个子块的加权均值和加权方差计算设定第一周期内的第一概率密度函数,并且获得所述第一概率密度函数作为第一概率分布;基于在各时刻处所获得的所述第一概率分布计算所述第一随机变量在时刻之前的时刻处的判决量作为不确定性指数,所述各时刻是所述第一周期中的单位时间;计算所述不确定性指数在第二周期内的均值,所述第二周期短于所述第一周期并且是所述时刻之前的周期;将所述均值作为第二随机变量,基于所述第二随机变量的加权均值和加权方差计算所述第一周期内的第二概率密度函数,并且获得所述第二概率密度函数作为第二概率分布;基于在各时刻处所获得的所述第二概率分布计算所述第二概率分布在所述时刻之前的时刻之前的第二周期内的平均信息量作为变点指数;以及将所计算的所述变点指数与提前设定的第二判定值进行比较,并且检测与其数值大于所述第二判定值的所述变点指数相对应的子块中的值作为异常值。
[0016]进一步的,所述第一概率密度函数使用如下公式进行表示:进一步的,所述第一概率密度函数使用如下公式进行表示:其中,T为时间间隔,T
s
为第一周期,min为子块中的最小值,max为子块中的最大值,n为子块中的值,δ为子块的加权均值,ε为子块的加权方差,F
X
(x)为设定的概率函数,定义为子块中值的概率分布对应的函数,x为变量。
[0017]进一步的,所述第二概率密度函数使用如下公式进行表示:,所述第二概率密度函数使用如下公式进行表示:其中,其中,T为时间间隔,T
f
为第二周期,min为第二随机变量中的最小值,max为第二随机变量中的最大值,n为第二随机变量中的值,δ

为第二随机变量的加权均值,ε为第二随机变量的加权方差,F
X
(x)为设定的概率函数,定义为第二随机变量中值的概率分布对应的函数,x为变量。
[0018]进一步的,对历史纳税金额进行基于数据异常的异常分析的方法包括:设定一个金额阈值,将该将金额阈值作为聚类中心变量;将历史纳税金额按照设定的金额阈值划分为多个子集;设定一个第一间隔值,所述第一间隔值的长度小于或等于金额阈值的四分之一,基于所述金额阈值内对应的每个子集的加权均值和加权方差计算设定第一间隔值内的第一梯度函数,并且获得所述第一梯度函数作为第一梯度值分布;基于在各时刻处所获得的所述第一梯度值分布计算所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于纳税人经营特征的优质纳税人识别方法,其特征在于,所述方法执行以下步骤:步骤1:获取纳税人的税务数据;所述数据包括:纳税人信息数据和纳税人行为数据;所述纳税人信息数据包括:纳税人ID、纳税人年龄、纳税人所处地域和纳税人所处行业;所述纳税人行为数据包括:历史行为数据和当前行为数据;所述历史行为数据包括:历史纳税金额和历史纳税时间;所述当前行为数据包括:当前纳税金额和当前纳税时间;步骤2:进行第一次比较分析,具体包括:基于每个纳税人的历史行为数据进行异常分析,找到该纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数;步骤3:进行第一次权重分配,具体包括:基于每个纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数,为每个纳税人分配纳税金额权重值和纳税时间权重值;所述纳税金额权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值;所述纳税人的纳税时间权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值;步骤4:进行第二次比较分析,具体包括:将每个纳税人的纳税人信息数据与其他纳税人的纳税人信息数据进行对应项的异常分析,包括:基于每个纳税人年龄与其他纳税人年龄的差异,得到年龄异常结果;基于每个纳税人所处行业与其他纳税人所处行业的差异,得到行业异常结果;步骤5:进行第二次权重分配,具体包括:基于每个纳税人的年龄异常结果和行业异常结果进行权重分配,为每个纳税人分配年龄异常权重值和行业异常权重值;步骤6:进行权重归一化处理,具体包括:将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理,得到每个纳税人的异常权重;步骤7:按照设定的周期,对纳税人的当前行为数据循环执行步骤2至步骤6,更新每个纳税人的异常权重;在每个时刻,筛选出异常权重的值最小的纳税人或异常权重的值在设定阈值范围内的纳税人作为优质纳税人。2.如权利要求1所述的方法,其特征在于,所述步骤2中进行第一次比较分析的方法包括:分别获取历史行为数据中的历史纳税金额和历史纳税时间;对历史纳税金额进行基于时间间隔的异常分析,找到出现异常的历史纳税金额的次数;对历史纳税金额进行基于数据异常的异常分析,找到出现异常的历史纳税时间的次数。3.如权利要求2所述的方法,其特征在于,对历史纳税时间进行基于数据异常的异常分析的方法包括:设定一个时间间隔,将该将时间间隔作为第一随机变量;将历史纳税时间按照设定的时间间隔划分为多个子块;设定一个第一周期,所述第一周期的长度小于或等于时间间隔的3分之一,基于所述时间间隔内对应的每个子块的加权均值和加权方差计算设定第一周期内的第一概率密度函数,并且获得所述第一概率密度函数作为第一概率分布;基于在各时刻处所获得的所述第一概率分布计算所述第一随机变量在时刻之前的时刻处的判决量作为不确定性指数,所述各时刻是所述第一周期中的单位时间;计算所述不确定
性指数在第二周期内的均值,所述第二周期短于所述第一周期并且是所述时刻之前的周期;将所述均值作为第二随机变量,基于所述第二随机变量的加权均值和加权方差计算所述第一周期内的第二概率密度函数,并且获得所述第二概率密度函数作为第二概率分布;基于在各时刻处所获得的所述第二概率分布计算所述第二概率分布在所述时刻之前的时刻之前的第二周期内的平均信息量作为变点指数;以及将所计算的所述变点指...

【专利技术属性】
技术研发人员:尹航
申请(专利权)人:深圳多有米网络技术有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1