一种基于XGBoost模型的新注册异常企业检测方法技术

技术编号:38711687 阅读:12 留言:0更新日期:2023-09-08 14:54
本发明专利技术涉及新注册异常企业检测领域,具体涉及一种基于XGBoost模型的新注册异常企业检测方法,包括以下步骤,步骤一,数据获取与预处理;步骤二:新注册企业特征抽取;步骤三:基于XGBoost模型的新注册异常企业检测;其中,所述步骤一首先基于税务大数据平台获取在S市N区指定所属期内新登记注册的企业名单;对上述数据的数据格式进行标准化处理,对缺失值进行处理,本发明专利技术在新注册异常企业检测建模的过程中,充分利用特征数据,实现在大量新注册异常企业检测任务中可以更加精准稳定地检测出异常企业,缩短检测任务的时间延迟,提高税务征管、风控以及稽查部门对涉税风险预警响应的时效性和敏捷性。效性和敏捷性。效性和敏捷性。

【技术实现步骤摘要】
一种基于XGBoost模型的新注册异常企业检测方法


[0001]本专利技术涉及新注册异常企业检测领域,具体涉及一种基于XGBoost模型的新注册异常企业检测方法。

技术介绍

[0002]鉴于新注册异常企业检测任务对于税务征收管理、风控、稽查等涉税业务的开展具有非常重要的辅助意义,该问题引起了相关学者以及税务从业者的注意,产出了一些工作成果。目前新注册异常企业检测问题的主要解决方案是基于专家评价指标体系的检测方案。现有方案在新注册异常企业检测方面取得了一定的成效,同时也存在着一些局限和不足;首先,基于评价指标体系的检测方案的检测性能取决于评价指标的选取、指标权重的设定以及风险定性阈值的设定等三项工作,但是评价指标的选取、指标权重和风险定性阈值的设定工作非常依赖税务专家的领域经验。因此,基于评价指标体系的检测方案存在泛化性能较差以及检测方案的可扩展性较差等局限。
[0003]其次,基于专家评价指标体系的新注册异常企业检测方案中指标阈值的确定是基于专家经验进行的,是一个固定数值。不能适应新注册异常企业检测方案的变化更新。
[0004]最后,基于专家评价指标体系的检测方案未能充分挖掘利用新注册企业的登记注册数据,导致检测方案的识别精确性不足,现提出一种基于XGBoost模型的新注册异常企业检测方法用以解决上述所提出的问题。

技术实现思路

[0005]针对现有技术的不足,本专利技术解决其技术问题所采用的技术方案是:本专利技术所述的一种基于XGBoost模型的新注册异常企业检测方法,包括以下步骤:步骤一:数据获取与预处理;其中,所述步骤一首先基于税务大数据平台获取在S市N区指定所属期内新登记注册的企业名单;随后获取企业的名称、注册地址、税种核定情况、票种核定情况、法人身份信息、法人联系方式、财务负责人身份信息、财务负责人联系方式、办税员身份信息、办税员联系方式、投资方信息等数据;对上述数据的数据格式进行标准化处理,对缺失值进行处理;步骤二:新注册企业特征抽取;所述步骤二中依据异常企业的特点抽取了企业的名称敏感度指数、办税人员历史行为异常指数、投资方异常指数、注册地址敏感度指数、人员兼职情况、法人籍贯敏感度指数、财务负责人籍贯敏感度指数、办税员籍贯敏感度指数、法人手机号码敏感度指数、财务负责人手机号码敏感度指数、办税员手机号码敏感度指数等特征。
[0006]所述步骤二中名称敏感度指数反映了企业命名的异常程度,是刻画新注册企业风
险程度的特征之一,其计算公式定义如下:其中表示企业名称中的某词在S市全体企业中的异常指数,是数据挖掘后的结果,表示名称敏感度指数。
[0007]所述步骤二中办税人员历史行为异常指数反映了办税人员历史绑定过的企业中有涉税风险、位于涉税风险实体库下的企业占比,是刻画办税人员绑定行为敏感程度的特征之一,其计算公式定义如下:其中表示办税人员历史绑定过的企业中位于涉税风险实体库下的企业数量,表示办税人员历史绑定过的所有企业数量,表示办税人员历史行为异常指数。
[0008]所述步骤二中投资方异常指数是指命中设定条件的企业(即异常企业)在该企业所有投资方中的占比,是刻画新注册企业风险程度的特征之一,其计算公式定义如下:其中表示命中设定条件的企业数量,表示该企业的所有投资方数量,表示投资方异常指数。
[0009]所述步骤二中注册地址敏感度指数是对企业在工商登记时所填写地址的层级精细程度及其真实性的度量,是刻画新注册企业风险程度的特征之一,企业地址层级包括省、市、区、开发区、街道、社区、道路、支路、道路门牌、道路支门牌、兴趣点、楼栋、单元、楼层、房间号等;所述步骤二中人员兼职情况是指企业内部重要岗位的兼职情况,使用人均任职变量进行刻画;所述步骤二中法人籍贯敏感度指数是指根据法人身份证信息,抽取出法人籍贯所在的省、市、县三级行政区,分别提取这三级行政区在S市全部企业关联人员中的异常指数。
[0010]所述步骤二中财务负责人籍贯是指根据财务负责人身份证信息,抽取出财务负责人籍贯所在的省、市、县三级行政区,分别提取这三级行政区在S市全部企业关联人员中的异常指数。
[0011]所述步骤二中办税员籍贯是指根据办税员身份证信息,抽取出办税员籍贯所在的省、市、县三级行政区,分别提取这三级行政区在S市全部企业关联人员中的异常指数;所述步骤二中法人手机号码敏感度指数是指根据法人手机号码信息,抽取出该手机号码代表的运营商、归属地两层通讯信息,分别提取这两层通讯信息在S市全部企业关联人员的手机号码中的异常指数。
[0012]所述步骤二中财务负责人手机号码敏感度指数是指根据财务负责人手机号码信息,抽取出该手机号码代表的运营商、归属地两层通讯信息,分别提取这两层通讯信息在S市全部企业关联人员的手机号码中的异常指数;
办税员手机号码敏感度指数是指根据办税员手机号码信息,抽取出该手机号码代表的运营商、归属地两层通讯信息,分别提取这两层通讯信息在S市全部企业关联人员的手机号码中的异常指数。
[0013]所述法人年龄是指根据其身份证信息计算所得的年龄,所述财务负责人年龄是指根据其身份证信息计算所得的年龄,所述办税员年龄是指根据其身份证信息计算所得的年龄,所述法人性别是指根据其身份证信息提取的性别,所述财务负责人性别是指根据其身份证信息提取的性别,所述办税员性别是指根据其身份证信息提取的性别。
[0014]步骤三:基于XGBoost模型的新注册异常企业检测;通过步骤二中的计算公式可以获得代表每家企业的特征向量,实现了对新注册的一家企业的精准刻画,随后基于上述构造的特征向量,利用XGBoost模型对新注册异常企业问题进行建模,利用XGBoost模型在有监督学习上强悍的处理和抽象能力尝试实现对新注册异常企业的精准检测和识别; XGBoost是一种基于Boosting策略的集成树算法,由多个简单的弱学习器组合成一个高效的强学习器。每轮迭代后算法会计算当前模型预测值和样本真实值的差异度,下一轮迭代会针对这个差异度来继续训练模型。XGBoost使用了一阶和二阶偏导, 二阶导数有利于梯度下降得更快更准,同时XGBoost显式地加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。
[0015]本专利技术的有益效果如下:本专利技术在新注册异常企业检测建模过程中充分考虑了代表一家企业的特征的提取及量化,对新注册企业是否存在异常进行推理,可显著提升训练所得模型的推理性能和泛化性能及扩大方案的适用性,使用XGBoost模型对新注册企业数据进行处理和抽象,利用XGBoost在有监督学习上强悍的处理能力可以显著提高新注册异常企业检测模型的推理准确性,相比于传统的基于专家评价指标体系的新注册异常企业检测方案,本专利技术能够准确的提高新注册异常企业检测和风险量化系统的准确性,本专利技术在新注册异常企业检测建模的过程中,充分利用特征数据,实现在大量新注册异常企业检测任务中可以更加精准稳定地检测出异常企业,缩短检测任务的时间延迟,提高税务征管、风控以及稽查部门对涉税风险预警响应的时效性和敏捷性。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于XGBoost模型的新注册异常企业检测方法,包括以下步骤:步骤一:数据获取与预处理;步骤二:新注册企业特征抽取;步骤三:基于XGBoost模型的新注册异常企业检测;其中,所述步骤一首先基于税务大数据平台获取在S市N区指定所属期内新登记注册的企业名单;随后获取企业的名称、注册地址、税种核定情况、票种核定情况、法人身份信息、法人联系方式、财务负责人身份信息、财务负责人联系方式、办税员身份信息、办税员联系方式、投资方信息等数据;对上述数据的数据格式进行标准化处理,对缺失值进行处理;所述步骤二中依据异常企业的特点抽取了企业的名称敏感度指数、办税人员历史行为异常指数、投资方异常指数、注册地址敏感度指数、人员兼职情况、法人籍贯敏感度指数、财务负责人籍贯敏感度指数、办税员籍贯敏感度指数、法人手机号码敏感度指数、财务负责人手机号码敏感度指数、办税员手机号码敏感度指数等特征。2.根据权利要求1所述的一种基于XGBoost模型的新注册异常企业检测方法,其特征在于:所述步骤二中名称敏感度指数反映了企业命名的异常程度,是刻画新注册企业风险程度的特征之一,其计算公式定义如下:;其中表示企业名称中的某词在S市全体企业中的异常指数,是数据挖掘后的结果,表示名称敏感度指数。3.根据权利要求1所述的一种基于XGBoost模型的新注册异常企业检测方法,其特征在于:所述步骤二中办税人员历史行为异常指数反映了办税人员历史绑定过的企业中有涉税风险、位于涉税风险实体库下的企业占比,是刻画办税人员绑定行为敏感程度的特征之一,其计算公式定义如下:;其中表示办税人员历史绑定过的企业中位于涉税风险实体库下的企业数量,表示办税人员历史绑定过的所有企业数量,表示办税人员历史行为异常指数。4.根据权利要求1所述的一种基于XGBoost模型的新注册异常企业检测方法,其特征在于:所述步骤二中投资方异常指数是指命中设定条件的企业(即异常企业)在该企业所有投资方中的占比,是刻画新注册企业风险程度的特征之一,其计算公式定义如下:;其中表示命中设定条件的企业数量,表示该企业的所有投资方数量,表示投资方异常指数。5.根据权利要求1所述的一种基于XGBoost模型的新注册异常企业检测方法,其特征在
于:所述步骤二中注册地址敏感度指数是对企业在工商登记...

【专利技术属性】
技术研发人员:盘浩军李晓彤奉凡黄泰文
申请(专利权)人:深圳中科闻歌科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1