一种基于图神经网络的纳税人风险评测方法技术

技术编号:32782695 阅读:12 留言:0更新日期:2022-03-23 19:41
本发明专利技术公开了一种基于图神经网络的纳税人风险评测方法,其步骤包括:1)构建图风险传播模型的数据集;2)基于该数据集中各纳税人的基本信息构建一图网络,作为纳税人属性信息网络;以增值税专用发票信息为依托构建纳税人票流关系信息网;3)将纳税人属性信息网络、税人票流关系信息网合并,得到一个最终图网络;然后获取该最终图网络的邻接矩阵;4)对该数据集中各纳税人的特征向量;5)将邻接矩阵作为图风险传播网络的网络参数,利用该数据集中各纳税人的特征向量训练图风险传播网络;6)对一组待测评的纳税人,获取该组纳税人中各纳税人的特征向量并输入训练后的图风险传播网络进行预测,得到每个纳税人的风险等级及是否存在团伙情况。情况。情况。

【技术实现步骤摘要】
一种基于图神经网络的纳税人风险评测方法


[0001]本专利技术涉及一种纳税人风险评测方法,尤其涉及一种使用基于图神经网络(Graph Convolutional Network,GCN)的图风险传播模型,属于人工智能领域。

技术介绍

[0002]纳税人风险等级评价是税务机关根据纳税人的历史纳税状况、纳税人经营状况、纳税人进销商品状况等综合测评出纳税人风险等级。当前的纳税人风险等级评测是相对人工化的,主要是相关专家根据已有数据对纳税人进行风险测评,用到的数据也只是纳税人基本信息和经营状况信息,根据一定的规则对纳税人某一指标打分,最终得分由所有的指标求和得出,人工的工作量比较多,更重要的是,只是考察纳税人独自信息,并没有考虑到纳税人在交易链路、关系网中的嵌入位置信息。当前的模型很难发现“团伙作案”的模式,而这样的模式对于发现纳税人经营过程中的风险传播变化是极其重要的。故我们提出了结合纳税人特征信息和票流信息、关系网拓扑结构信息的图风险传播模型,既能智能化的评测纳税人风险等级,减少人工工作量,又能结合图网络算法发现团伙信息。
[0003]当前,风险等级评价任务主要有两类解决方案:1.基于机器学习的方案,2.基于专家建模的方案。
[0004]1.基于机器学习的方案主要考虑纳税人的基本信息建模为机器学习指标然后用机器学习算法比如决策树(Decision Tree)、支持向量机(SVM)、梯度提升树(GBDT)等进行分类决策。这种方法的优点是可以直观的看到基本信息中属性对分类结果的影响,可解释性比较强。缺点是需要人为的设计纳税人特征向量,更重要的是没有考虑票流关系,没有考虑进销货物情况,只能单独的对纳税人分析,缺少了必要的拓扑信息,得到的结果并不十分准确,也不能发现团伙现象。
[0005]2.基于专家建模的方法,主要利用了专家经验,专家们在实践中总结了一套业务知识,来相对准确判定纳税人风险等级,专家根据一系列特征来打分最终判定纳税人风险等级。比如,某纳税人符合有销无进、夜间开票特征就打较高的风险分数,如果纳税人企业经营敏感行业打分就相对较低。这种方法由专家们来打分评判。缺点也是比较明显的,需要专家知识,人工成本较高,不够智能化。业务知识有滞后性,不能很好应对新的形况。

技术实现思路

[0006]针对上述技术问题,本专利技术的目的在于提供一种基于图卷积神经网络风险传播的纳税人风险评测方法,图卷积方法基于图算法,图算法主要考虑纳税人在票流中的拓扑位置。根据发票购销方往来货物数据,构建票流网络。然后依据票流网络,使用图算法比如中心性算法(度中心性算法、接近中心性算法、中介中心性算法、PageRank算法等)社区发现算法(LabelPropagation Algorithm、ComponentsAlgorithm等)。基于图论的算法较好考虑了企业的票流关系(企业上下游关系),给出在图中影响力较大的结点,和划分社团。图论算法的优势是通过票流关系把纳税人形成关系网络,在关系网络中通过图算法进行分析。这种
方案的优点是利用了票流关系,可以较好的发现团伙关系,缺点也比较明显,无法利用纳税人基本属性信息,而属性信息对于预测纳税人风险等级也是重要的。
[0007]有没有一种方法既考虑到纳税人基本信息又考虑到拓扑信息呢?图神经网络(GCN)能解决这一问题。
[0008]纳税人基本信息(纳税人名称、企业年限、行业类型、信用等级、雇工人数等)、关联关系网(相同注册/经营地址、MAC地址、法人、办税人、领票人、电话号码等)、发票票流网(纳税人发票往来构成网络)等能够反映出纳税人风险等级变化。通过使用图卷积风险传播模型,巧妙结合了纳税人基本信息和关联关系网、发票票流网,进行纳税人风险传播,可以准确合理的对纳税人进行风险等级测评,帮助主管税务机关对纳税人进行风险测评,降低了人工工作量,提高了对风险企业的预先管控能力。对实现自动、智能的业务处理具有重要意义,是构建智能化税务系统的重要步骤。
[0009]该方法对纳税人风险等级进行评定预测,预测效果较好,并对存在高风险、形成团伙的纳税人进行及时的风险提示提醒。本方法的具体流程示意如图1所示。
[0010]Step1构建纳税人属性信息网络:以纳税人基本信息为依托构建图网络。具体包括:1.纳税人注册/登记地址、2.纳税人开具发票MAC地址、3.企业电话号码、4.纳税人法人身份证件号码、5.企业财务负责人、办税人、领票人姓名身份证件号码。具体地,以纳税人为图网络结点,如果两个纳税人之间的注册/登记地址相同、MAC地址相同、电话相同、法人身份证件号码任一相同,则此两个纳税人之间有边相连,通过具体地,以MAC地址相同为例,首先找到所有MAC地址相同的纳税人,对这些纳税人构建全连通图(即邻接矩阵除对角线为0外全为1)。其他属性相同的类似处理。
[0011]Step2构建纳税人票流关系信息网,以增值税专用发票信息为依托,如果纳税人A销售货物给纳税人B且货物金额一年内累计超过10万,则从纳税人A连边到纳税人B,这样构成票流网。
[0012]Step3构建最终的图网络。合并属性信息网和票流关系信息网,具体地,由于属性信息网是无向的,票流关系网是有向的。不能直接合并两个图,我们把属性信息网转化为有向的,一个无向边相当于两个相反的有向边相连,于是把无向的属性信息网转化为有向的属性信息网,之后对两个有向的网络进行合并,即对两个有向图所对应的邻接矩阵按位取并这样形成最终的图网络,最终的图网络的邻接矩阵用作神经网络的参数。
[0013]Step4纳税人名称向量化。使用词向量(Word2vec)技术,首先使用python jieba分词库,对纳税人名称进行分词得到分词序列,使用预训练好的词向量查找表对分词序列进行查找向量化得到纳税人名称向量化矩阵,由于纳税人名称分词后的序列长度不定,为了固定长度,使用全局平均池化和全局最大池化拼接作为最终的纳税人名称向量;
[0014]Step5纳税人登记时长向量化。用考察当下的时间(2021)减去纳税人登记日期得到纳税人年限;进一步纳税人人年限分为5个等级:0

1年为A级、1

2年为B级、2

5年为C级、5

7年为D级,大于7年为E级。五个等级使用one

hot编码向量化得到长度为5的纳税人年限向量;
[0015]Step6纳税人行业代码向量化。行业代码是四位数字,编码了不同行业,由于行业代码本身为数字,即使用四位行业代码作为行业代码向量;
[0016]Step7纳税人雇工人数向量化。将纳税人雇工人数分为7个等级:0

5人A级、5

10人
B级、10

30人C级、30

200人D级200

500人E级、500

1000人F级、大于1000人G级。七个等级使用one

hot编码向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的纳税人风险评测方法,其步骤包括:1)构建图风险传播模型的数据集,包括被税务机关稽查的纳税人并设定其风险值、被认定为非正常户的纳税人并设定其风险值、正常纳税人并设定其风险值;根据风险值取值范围设定多个区间,每一区间对应一纳税人风险等级标签;其中被税务机关稽查的纳税人的风险值>被认定为非正常户的纳税人的风险值>正常纳税人的风险值;2)基于该数据集中各纳税人的基本信息构建一图网络,作为纳税人属性信息网络;以增值税专用发票信息为依托构建纳税人票流关系信息网;3)将纳税人属性信息网络、税人票流关系信息网合并,得到一个最终图网络;然后获取该最终图网络的邻接矩阵;4)对该数据集中各纳税人分别进行纳税人名称向量化、纳税人登记时长向量化、纳税人行业代码向量化、纳税人雇工人数向量化、纳税人信用等级向量化;然后基于所得向量化结果构建各纳税人对应的特征向量;5)将所述邻接矩阵作为图风险传播网络的网络参数,利用该数据集中各纳税人的特征向量训练图风险传播网络;6)对一组待测评的纳税人,获取该组纳税人中各纳税人的特征向量并输入步骤5)训练后的图风险传播网络进行预测,得到每个纳税人的风险等级及是否存在团伙情况。2.如权利要求1所述的方法,其特征在于,所述图风险传播网络为GCN图卷积网络模型,其数学表达式为:Z=f(X,A)=Softmax(A Relu(AXW
(0)
)W
(1)
);其中,X代表纳税人的特征向量,A代...

【专利技术属性】
技术研发人员:李超马达吴石磊钟晓刚康亚军梁少虎秦子鹏
申请(专利权)人:中国软件与技术服务股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1