一种识别企业留抵退税的风险评估方法及终端技术

技术编号:37855097 阅读:13 留言:0更新日期:2023-06-14 22:48
本发明专利技术属于税务风险评估技术领域,公开了一种识别企业留抵退税的风险评估方法及终端,识别企业留抵退税的风险评估方法包括:构建留抵退税风险筛查模型,对待评估用户的事前、事中、事后的风险行为进行扫描监控,将具备高风险点的用户信息及时报送给税务机关;构建图神经网络团伙识别模型,识别留抵退税的用户信息;以具备留抵退税风险企业作为输入,利用图神经网络集团识别模型,输出识别结果。本发明专利技术将业务模型和机器学习模型有机结合,再叠加风险集团识别模型,并将三个模型有机结合,能够精准地识别风险企业,且能够确定风险集团,实现风险企业的“挖准”和“挖全”。。。

【技术实现步骤摘要】
一种识别企业留抵退税的风险评估方法及终端


[0001]本专利技术属于税务风险评估
,尤其涉及一种识别企业留抵退税的风险评估方法及终端。

技术介绍

[0002]目前,现有技术中,识别企业是否存在风险的技术手段主要有两种,一种是基于业务经验的风险识别方法。分析大量企业行为手段,结合业务经验,将存在风险的企业的行为特征,使用企业涉税数据编写代码,将其转化成风险指标,一旦企业命中风险指标,则提示该企业存在风险。这种方法的优点是风险指标指向性强,筛查方式也很容易让税务风险筛查人员理解。缺点是模型筛查效果严重依赖于风险指标的设计,同时需要为风险指标设置合理的阈值。指标和阈值的设置较为困难,实际应用中筛查准确性不高。其次,风险指标一旦被风险企业摸索到,指标筛查有效性将大大降低。
[0003]另一种是基于机器学习模型训练的风险识别方法。将历史已经确认存在风险的企业作为黑样本,使用有监督机器学习方法,对黑白样本进行模型训练。使用训练后模型对未知企业进行判断,如果企业预测得分高于某阈值,则认为存在风险。这种方法优点在于模型构建不需要人为设定风险阈值,在样本数据充足的情况下,筛查准确性较高,而且模型能够根据企业行为手段变化,快速更新迭代。缺点是机器学习模型,对于税务风险筛查人员来说,都属于黑盒模型,模型仅输出一个风险概率值,没有具体的风险指向。税务人员仅凭借模型预测得分,难以进行风险核查。同时,构建机器学习模型,前提条件是具备充足的黑样本,这通常需要一定时间的积累才具备。
[0004]除此之外,存在风险的企业,经常会有另一些企业对其提供帮助。这些企业不直接进行风险行为操作,而且通过虚开发票等方式,为风险企业提供方便。上述两种方法均是针对单户留抵退税风险企业的筛查,无法筛查出其他合作企业。
[0005]通过上述分析,现有技术存在的问题及缺陷为,业务模型风险指向强但准确性低,而机器学习模型准确性较高但风险指向性差,构建需要积累充足的黑样本,而做风险筛查需同时兼顾准确性和指向性。同时两类方法,都只能进行单户风险筛查,无法兼顾多户风险企业群体。

技术实现思路

[0006]针对现有技术存在的问题,本专利技术提供了一种识别企业留抵退税的风险评估方法及终端。
[0007]本专利技术是这样实现的,一种识别企业留抵退税的风险评估方法,所述识别企业留抵退税的风险评估方法包括:
[0008]利用机器学习方法构建留抵退税风险筛查模型,对待评估用户的事前、事中、事后的风险行为进行扫描监控;利用评分卡模型,融合外部地区构建的风险模型,补充了当地未发现的风险特征,使风险筛查更加全面;用图神经网络构建出集团识别模型,对模型的单点
识别能力进行了扩展,提供风险特征不明显的潜在风险企业的监控。同时能够关联到外部风险企业,能够事先为外省市提供风险监控清单,防止风险扩散;将扫描出的高风险用户进行发送,发送内容不仅包含风险企业基本信息,同时利用评分卡模型输出具体的风险标签,包括特征标准值,风险特征偏离度,为实地风险核查提供依据。
[0009]进一步,所述识别企业留抵退税的风险评估方法还包括以下步骤:
[0010]步骤一,获取待筛查企业清单,提取企业纳税人识别号;提取待筛查企业在设定筛查截止时间点近三年的原始税务数据;
[0011]步骤二,确定待筛查企业的风险指标,构建基于评分卡的风险预测模型,利用所述基于评分卡的风险预测模型基于所述待筛查企业的风险指标确定所有待筛查企业的风险得分和风险标签;
[0012]步骤三,构建基于机器学习的风险预测模型,利用留抵退税风险企业黑白样本数据对所述基于机器学习的风险预测模型进行训练,并利用训练好的风险预测模型计算企业的风险得分;
[0013]步骤四,构建集团识别模型,利用所述集团识别模型进行留抵退税风险集团的识别;
[0014]步骤五,利用融合策略融合基于评分卡的风险预测模型、基于机器学习的风险预测模型、集团识别模型,并进行风险评估,并输出风险企业清单。
[0015]进一步,所述步骤三中利用留抵退税风险企业黑白样本数据对所述基于机器学习的风险预测模型进行训练包括:
[0016]利用留抵退税风险企业黑白样本,计算企业风险指标,输入到基于机器学习的风险预测模型中进行训练。
[0017]进一步,所述留抵退税风险企业白样本数据为不存在留抵退税风险的企业数据;所述留抵退税风险企业黑样本数据为确认存在留抵退税风险的企业数据;
[0018]所述原始税务数据为包括企业的登记信息、申报信息、征收信息、发票信息、财务信息的原始税务数据表。
[0019]进一步,所述利用基于评分卡的风险预测模型基于所述待筛查企业的风险指标确定所有待筛查企业的风险得分和风险标签包括:
[0020]所述基于评分卡的风险预测模型包括:输入层、前置条件层、指标层、指标组层以及输出层;
[0021]确定所有待筛查企业的风险得分和风险标签包括:
[0022]输入层,用于输入待筛查企业的风险指标数据;
[0023]前置条件层,用于当第m和n指标属于前置条件层指标时,利用下式计算风险得分:
[0024][0025]其中,Z1,Z2,

,Z
k
表示风险指标;则表示企业i的风险指标数
据;
[0026]指标层,用于当利用下式计算企业的风险指标最大得分:
[0027][0028]其中,Z
n
表示风险指标得分;q表示风险指标组包含的风险指标的数量;表示风险指标对应的权重;风险指标Z
n
得分取值范围
[0029]指标组层,用于当利用下式计算企业的风险指标组最大得分:
[0030][0031]其中,ZB1,ZB2,

,ZB
l
表示风险指标组;表示风险指标组对应的权重;风险指标组ZB
m
得分取值范围
[0032]输出层,用于当时输出企业i的风险得分score
i
=100以及和两个指标对应的风险标签,和同时用于当时,利用计算企业的风险得分;并当时,输出对应的风险标签。
[0033]进一步,所述步骤三中,利用留抵退税风险企业黑白样本数据对所述基于机器学习的风险预测模型进行训练,并利用训练好的风险预测模型计算企业的风险得分包括:
[0034](1)确定留抵退税风险企业黑白样本,提取企业纳税人识别号;提取确定的企业在设定筛查截止时间点近三年的原始税务数据;
[0035](2)计算圈定企业的风险指标,统计企业黑白样本分布情况,计算黑样本数量占全部圈定企业数量比值M;
[0036](3)统计圈定企业计算风险指标结果分布情况;计算所述确定的风险指标有效值的个数占全部所述企业数量比值G,若指标i的G
i
<M,则删除所述指标,不作为模型输入;
[0037](4)利用XGBoost计算未删除指标的重要程度:
[0038]sum本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别企业留抵退税的风险评估方法,其特征在于,所述识别企业留抵退税的风险评估方法包括:利用机器学习方法构建留抵退税风险筛查模型,对待评估用户的事前、事中、事后的风险行为进行扫描监控;利用评分卡模型,融合外部地区构建的风险模型,补充当地未发现的风险特征;用图神经网络构建出集团识别模型扩展单点识别能力,提供风险特征不明显的潜在风险企业的监控;同时关联到外部风险企业,事先为外省市提供风险监控清单,防止风险扩散;将扫描出的高风险用户进行发送,发送内容包含风险企业基本信息以及同时利用评分卡模型输出具体的风险标签。2.如权利要求1所述识别企业留抵退税的风险评估方法,其特征在于,所述识别企业留抵退税的风险评估方法还包括以下步骤:步骤一,获取待筛查企业清单,提取企业纳税人识别号;提取待筛查企业在设定筛查截止时间点近三年的原始税务数据;步骤二,确定待筛查企业的风险指标,构建基于评分卡的风险预测模型,利用所述基于评分卡的风险预测模型基于所述待筛查企业的风险指标确定所有待筛查企业的风险得分和风险标签;步骤三,构建基于机器学习的风险预测模型,利用留抵退税风险企业黑白样本数据对所述基于机器学习的风险预测模型进行训练,并利用训练好的风险预测模型计算企业的风险得分;步骤四,构建集团识别模型,利用所述集团识别模型进行留抵退税风险集团的识别;步骤四,利用融合策略融合基于评分卡的风险预测模型、基于机器学习的风险预测模型、集团识别模型,并进行风险评估,并输出风险企业清单。3.如权利要求2所述识别企业留抵退税的风险评估方法,其特征在于,所述步骤三中利用留抵退税风险企业黑白样本数据对所述基于机器学习的风险预测模型进行训练包括:利用留抵退税风险企业黑白样本,计算企业风险指标,输入到基于机器学习的风险预测模型中进行训练。4.如权利要求2所述识别企业留抵退税的风险评估方法,其特征在于,所述留抵退税风险企业白样本数据为不存在留抵退税风险的企业数据;所述留抵退税风险企业黑样本数据为确认存在留抵退税风险的企业数据;所述原始税务数据为包括企业的登记信息、申报信息、征收信息、发票信息、财务信息的原始税务数据表。5.如权利要求2所述识别企业留抵退税的风险评估方法,其特征在于,所述利用基于评分卡的风险预测模型基于所述待筛查企业的风险指标确定所有待筛查企业的风险得分和风险标签包括:所述基于评分卡的风险预测模型包括:输入层、前置条件层、指标层、指标组层以及输出层;确定所有待筛查企业的风险得分和风险标签包括:输入层,用于输入待筛查企业的风险指标数据;前置条件层,用于当第m和n指标属于前置条件层指标时,利用下式计算风险得分:
其中,Z1,Z2,

,Z
k
表示风险指标;则表示企业i的风险指标数据;指标层,用于当利用下式计算企业的风险指标最大得分:其中,Z
n
表示风险指标得分;q表示风险指标组包含的风险指标的数量;表示风险指标对应的权重;风险指标Z
n
得分取值范围指标组层,用于当利用下式计算企业的风险指标组最大得分:其中,ZB1,ZB2,

,ZB
l
表示风险指标组;表示风险指标组对应的权重;风险指标组ZB
m
得分取值范围输出层,用于当时输出企业i的风险得分score
i
=100以及和两个指标对应的风险标签,和同时用于当时,利用计算企业的风险得分;并当时,输出对应的风险标签。6.如权利要求2所述识别企业留抵退税的风险评估方法,其特征在于,所述步骤三中,利用留抵退税风险企业黑白样本数据对所述基于机器学习的风险预测模型进行训练,并利用训练好的风险预测模型计算企业的风险得分包括:(1)确定留抵退税风险企业黑白样本,提取企业纳税人识别号;提取确定的企业在设定筛查截止时间点近三年的原始税务数据;(2)计算圈定企业的风险指标,统计企业黑白样本分布情况,计算黑样本数量占全部圈定企业数量比值M;(3)统计圈定企业计算风险指标结果分布情况;计算所述确定的风险指标有效值的个数占全部所述企业数量比值G,若指标i的G
i
<M,则删除所述指标,不作为模型输入;(4)利用XGBoost计算未删除指标的重要程度:sum(I1,I2,

I
x
)=1
其中,I1,I2,

I
x
表示指标的重要程度;(5)当指标时,删除所述指标,不再作为模型输入;将最终未删除指标计算结果值、以及对应的企业黑白标签作为模型输入,使用k

fold交叉验证评估XGBoost模型效果;利用GridSearch对xgboost进行调参;当AUC>=0.9,ACC>=0.9时,停止模型调参;(6)将计算企业对应风险指标结果值输入到训练好的模型中,输出企业存在留抵退税风险的预测值,预测值范围0~1;预测值越大,企业存在留抵退税风险可能性越高。7.如权利要求2所述识别企业留抵退税的风险评估方法,其特征在于,所述步骤四中利用集团识别模型进行留抵退税风险集团的识别包括:将确定存在留抵退税风险企业作为输入,提取所...

【专利技术属性】
技术研发人员:金语泽吴敬周宏立
申请(专利权)人:神州数码信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1