一种发票虚开风险识别方法技术

技术编号:31795794 阅读:27 留言:0更新日期:2022-01-08 10:55
本发明专利技术提供一种发票虚开风险识别方法,属计算机及通信技术领域,本发明专利技术用于对企业的发票虚开风险进行识别,方法包括:获取企业相关的涉税数据,包括税务内部系统数据、第三方涉税数据以及互联网涉税数据;根据构建的发票虚开风险识别模型对企业的涉税数据进行扫描、分析、识别,最终得到涉嫌虚开的企业信息,其中构建的税收风险识别模型依据机器学习算法建立;将得到的分析结果以可视化的方式展示。与现有风险识别的方法相比,本发明专利技术的优点是使用的分析数据更加全面,风险识别针对性更强,风险识别手段更加丰富,识别结果更加精准。识别结果更加精准。识别结果更加精准。

【技术实现步骤摘要】
一种发票虚开风险识别方法


[0001]本专利技术涉及税收风险管理
,尤其涉及一种发票虚开风险识别方法。

技术介绍

[0002]税收风险管理就是以风险管理理论为基础,将现代风险管理理念与现实的税收征管相结合,以涉税风险管理为导向,通过数理技术及风险管理技术对各种可能的涉税风险信息加以识别,在对纳税人涉税风险度进行科学测评的基础上,根据涉税风险的不同,采取相应的风险应对策略,以缓释和化解税收风险,为后续一系列税收风险管理活动提供支撑,以提高纳税人的税收遵从度,减少税款的流失。
[0003]税收风险主要可划分为税源风险和执法风险两种。前者主要是纳税遵从方面的风险,即纳税人出于主观或者客观的原因所导致的税收流失的可能性风险;后者主要是指税务人员执法中因违反税收法律及管理制度所造成的税收流失及纳税人合法权益受损的风险。
[0004]税收风险管理本质上是一个信息采集平台,同时也是一个数据湖和数据工厂,要实现其最大功效必须不断提升数据挖掘、数据获取、数据整理、数据分析、风险识别的能力。鉴于此,主要应从以下三个方面着手:
[0005]通过信息共享提升利用大数据信息获取能力及税收风险发现能力。一要建立以大数据为依托的风险信息支撑;二要大力搜集挖掘散落在互联网上的海量涉税信息,大力拓展各行业协会、电商平台、社交平台等外部部门的涉税信息获取渠道。通过对这些信息的不断提炼加工,逐步建立起按地域、行业、税种、涉税风险点等多维度、全天候的实时数据库,建立“一户式”纳税人信息档案。对于发现的涉税风险,要及时运用“互联网+”的协同理念和技术,实现各相应单位的信息共享,以实现互联互通共同应对风险。
[0006]建立科学合理的“互联网+”税收风险内部管理流程。一方面要规范数据归口管理,构建以团队化分工协作为主导的风险管理业务流程,仔细梳理从数据挖掘、数据获取、数据整理、数据分析、风险识别、风险排查、风险处理、风险监督等风险管理链条,将各项工作职责和业务流程规范化,落实责任机制,保证风险数据的及时有效处理;另一方面,要切实落实统一采集入口、统一进行数据处理,并且要不断整合优化数据采集工具,在不断扩大数据采集的广度和深度的同时要保证数据质量的提高,掌握去伪存真的技术,切实避免垃圾数据的进入和干扰,保证数据的纯净和真实。

技术实现思路

[0007]为了解决以上技术问题,本专利技术提供了一种发票虚开风险识别方法,可应用于各个行业的风险识别,辅助风险管理。
[0008]本专利技术的技术方案是:
[0009]一种发票虚开风险识别方法,用于对企业的发票虚开风险进行识别,方法包括:获取企业相关的涉税数据,包括税务内部系统数据、第三方涉税数据以及互联网涉税数据;根
据构建的发票虚开风险识别模型对企业的涉税数据进行扫描、分析、识别,最终得到涉嫌虚开的企业信息,其中构建的税收风险识别模型依据机器学习算法建立;将得到的分析结果以可视化的方式展示。与现有风险识别的方法相比,本专利技术的优点是使用的分析数据更加全面,风险识别针对性更强,风险识别手段更加丰富,识别结果更加精准。
[0010]进一步的,
[0011]根据虚开具体业务构建特征使用方案,特征使用方案包含特征表示中连续特征离散化处理,选取特征使用的特征。
[0012]统计清洗后的年度内第一季度一般纳税人和小规模纳税人数据,经确认的虚开纳税人和正常纳税人户数,对于数据分布不均匀的情况,通过蒙特卡洛方法,对数据进行不放回采样,构建一个以上的同质与异质分类器,通过集成学习stacking对结果进行逻辑回归。
[0013]通过数据质量分析,分析数据的缺失值及异常值情况,剔除不相关的特征;通过数据特征分析,分析特征的偏度、峰度、集中趋势、离中趋势,对连续特征缺失值进行基于统计方法(均值、中位数)的填充,对离散特征缺失值进行众数填充。
[0014]特征工程上包括特征选择以及特征的归一化处理,归一化采取标准差标准化处理;采取卡方检验、最大信息系数、随机森林RF以及顶层RFE方法进行特征选择。
[0015]采用随机森林特征选择,特征重要度采用平均不纯度减少量评估;最终确定选择特征。
[0016]将数据集划分为训练集、开发集、测试集;其中测试集包含其中一半的数据,另外一半数据集中样本集中训练集和开发集比例为9:1;
[0017]开发集和测试集通过不放回抽样,从整体样本集中获取;
[0018]训练集在模型训练过程中进行交叉验证调整超参数,各fold分布一致,评估指标取各fold的AUC均值;
[0019]开发集用于模型选择,选择各CART树最优叶子节点数及每个叶子节点最优取值。
[0020]训练模型应保证开发集、测试集与数据真实分布一致,训练集应保证虚开与正常纳税人数量均衡,对训练集进行imbalance

learn;通过对小类样本上采样,或对大类样本下采样,达到样本均衡;包括:EasyEnsemble、BalanceCascade;对小类样本合成,包括:SMOTE、BorderLine

SMOTE、ADASYN;对小类样本赋予0.1以上的权值,单类别分类将小类样本当作异常值进行异常值检测。包括:One Class SVM、RBM(AutoEnconder)、Isolation Forest。
[0021]在模型设计上引入MCMC方法,构建一个以上训练、开发、测试合集,同时为增强模型的鲁棒性,在构建3个同质XGBoost基分类器的基础上,引入RF、IForest及深度神经网络为基分类器,并设置LR后处理模型。
[0022]本专利技术的有益效果是
[0023]本专利技术的优点是使用的分析数据更加全面,风险识别针对性更强,风险识别手段更加丰富,识别结果更加精准,具体优势如下:
[0024]1.强解释性,在特征工程

特征选择上,基于RFE顶层特征选择算法,创新性提出强解释性的INSPUR

RFE特征选择算法;在可视化上,提供底层模型结构的可视化功能。
[0025]2.主动交互,前端开放记录识别结果校准功能,同时开放特征增/删/改功能。
[0026]3.依托持续学习技术,模型主动自适应数据分布的变动,及时主动捕获假发票虚
开企业的作案手法,完成自我持续性自动学习和优化。
[0027]4.税务信息多源多态,依托持续学习技术可实现对结构化数据、半结构化数据、文本、图像、视频等多模态数据的处理。
[0028]5、自动机器学习方面,引入开源模型,并开放模型算法入口,可紧跟前沿技术发展,自动扩展模型算法库;同时,大规模的模型算法为自动机器学习提供更为可靠的资源支撑。
附图说明
[0029]图1是本专利技术的工作流程示意图。
具体实施方式
[0030]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种发票虚开风险识别方法,其特征在于,获取相关的涉税数据,包括税务内部系统数据、第三方涉税数据以及互联网涉税数据;根据构建的风险识别模型对企业的涉税数据进行扫描、分析、识别,最终得到涉嫌虚开的企业信息,其中构建的税收风险识别模型依据机器学习算法建立;将得到的分析结果以可视化的方式展示。2.根据权利要求1所述的方法,其特征在于,根据虚开具体业务构建特征使用方案,特征使用方案包含特征表示中连续特征离散化处理,选取特征使用的特征。3.根据权利要求2所述的方法,其特征在于,统计清洗后的年度内第一季度一般纳税人和小规模纳税人数据,经确认的虚开纳税人和正常纳税人户数,对于数据分布不均匀的情况,通过蒙特卡洛方法,对数据进行不放回采样,构建一个以上的同质与异质分类器,通过集成学习stacking对结果进行逻辑回归。4.根据权利要求3所述的方法,其特征在于,通过数据质量分析,分析数据的缺失值及异常值情况,剔除不相关的特征;通过数据特征分析,分析特征的偏度、峰度、集中趋势、离中趋势,对连续特征缺失值进行基于统计方法(均值、中位数)的填充,对离散特征缺失值进行众数填充。5.根据权利要求4所述的方法,其特征在于,特征工程上包括特征选择以及特征的归一化处理,归一化采取标准差标准化处理;采取卡方检验、最大信息系数、随机森林RF以及顶层RFE方法进行特征选择。6.根据权利要求5所述的方法,其特征在于,采用随机森林特征选择,特征重要度采用平均不纯度减少量评估;最终确定选择特征...

【专利技术属性】
技术研发人员:张德路程琳杨培强
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1