非正常纳税人识别方法及装置制造方法及图纸

技术编号:21301836 阅读:22 留言:0更新日期:2019-06-12 08:30
本发明专利技术公开了一种非正常纳税人识别方法及装置,该方法包括:获取待识别纳税人的选定信息;从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值;将所述待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到所述待识别纳税人的第一设定数量的概率值;基于所述待识别纳税人的第一设定数量的概率值得到所述待识别纳税人的识别结果。该方案可以实现借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常。

Identification Method and Device for Abnormal Taxpayers

The invention discloses an abnormal taxpayer identification method and device, which includes: obtaining the selected information of the taxpayer to be identified; obtaining the characteristic value of at least one selected feature of the taxpayer to be identified from the selected information of the taxpayer to be identified; and sequentially inputting the characteristic value of at least one selected feature of the taxpayer to be identified into the first set number of training. In the later xgboost model, the probability value of the first set number of taxpayers to be identified is obtained. Based on the probability of the first set number of taxpayers to be identified, the recognition result of the taxpayers to be identified is worth obtaining. This scheme can construct an abnormal taxpayer recognition model to identify whether the taxpayer is normal or not by means of machine learning algorithm and big data technology.

【技术实现步骤摘要】
非正常纳税人识别方法及装置
本专利技术涉及信息处理
,尤指一种非正常纳税人识别方法及装置。
技术介绍
税收是国家公共财政最主要的收入形式和来源。尽管增值税防伪税控系统的推广使用,是税收征管和增加国家收入的一个强有力手段,但在税收风险管理方面仍然不足,还是主要依托于税收分析人员的业务经验,不仅主观成分浓厚,准确性不强,而且效率低下,尤其在虚开发票企业和走逃企业的判别上。借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常,不仅可以提升可疑企业的监控识别效果和识别效率,而且有助于维持正常的税收和经济秩序。
技术实现思路
本专利技术实施例提供一种非正常纳税人识别方法及装置,用以实现借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常。根据本专利技术实施例,提供一种非正常纳税人识别方法,所述方法包括:获取待识别纳税人的选定信息;从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值;将所述待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到所述待识别纳税人的第一设定数量的概率值;基于所述待识别纳税人的第一设定数量的概率值得到所述待识别纳税人的识别结果。具体的,从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值,具体包括:从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的初始特征值;将所述待识别纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述待识别纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述待识别纳税人的至少一个选定特征的初始特征值进行标准化处理,得到所述待识别纳税人的至少一个选定特征的特征值。具体的,基于所述第一设定数量的概率值得到识别结果,具体包括:计算所述第一设定数量的概率值的均值;将所述均值与设定阈值进行比较;若所述均值大于或等于所述设定阈值,则确定所述待识别纳税人为非正常纳税人;若所述均值小于所述设定阈值,则确定所述待识别纳税人为正常纳税人。具体的,还包括:获取第二设定数量的正常纳税人的选定信息和第三设定数量的非正常纳税人的选定信息;从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,将各个正常纳税人的至少一个选定特征的特征值和正常纳税人标签添加到特征值标签宽表中;从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,将各个非正常纳税人的至少一个选定特征的特征值和非正常纳税人标签添加到所述特征值标签宽表中;从所述特征值标签宽表中获取测试样本集和所述第一设定数量的训练样本集;将所述第一设定数量的训练样本集中各个纳税人的至少一个选定特征的特征值和对应的标签分别输入到初始的xgboost模型,得到所述第一设定数量的候选的xgboost模型;使用所述测试样本集中各个纳税人的至少一个选定特征的特征值和对应的标签测试所述第一设定数量的候选的xgboost模型;基于测试结果确定精确率和召回率;若所述精确率和所述召回率均达标,则将所述第一设定数量的候选的xgboost模型确定为所述第一设定数量的训练后的xgboost模型。具体的,从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,具体包括:从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的初始特征值;将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的正常纳税人的的至少一个选定特征的特征值。具体的,从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,具体包括:从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的初始特征值;将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的非正常纳税人的的至少一个选定特征的特征值。具体的,从所述特征值标签宽表中获取测试样本集和所述第一设定数量的训练样本集,具体包括:将所述特征值标签宽表中的非正常纳税人按照预设比例划分为两份,得到第一非正常纳税人集合和第二非正常纳税人集合;针对所述第一设定数量的训练样本集中的每个训练样本集,执行:从所述特征值标签宽表中抽取与所述第一非正常纳税人集合包括的非正常纳税人数量相同且之前未被抽取的正常纳税人,将抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与所述第一非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到一个训练样本集;将所述特征值标签宽表中未被抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与所述第二非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到测试样本集。具体的,基于测试结果确定精确率和召回率,具体包括:所述精确率的计算公式如下:Precision=TP/(TP+FP);所述召回率的计算公式如下:Recall=TP/(TP+FN);其中,假设将非正常纳税人样本为正样本,正常纳税人样本为负样本,TP表示测试结果为正样本、实际也为正样本的样本数量,FP表示测试结果为正样本、实际为负样本的样本数量,FN表示测试结果为负样本、实际为正样本的样本数量。根据本专利技术实施例,还提供一种非正常纳税人识别装置,所述装置包括:第一获取模块,用于获取待识别纳税人的选定信息;第二获取模块,用于从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值;输入模块,用于将所述待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到所述待识别纳税人的第一设定数量的概率值;识别模块,用于基于所述待识别纳税人的第一设定数量的概率值得到所述待识别纳税人的识别结果。具体的,所述第二获取模块,用于从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值,具体用于:从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的初始特征值;将所述待识别纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述待识别纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述待识别纳税人的至少一个选定特征的初始特征值进行标准化处理,得到所述待识别纳税人的至少一个选定特征的特征值。具体的,所述识别模块,用于基于所述第一设定数量的概率值得到识别结果,具体用于:计算所述第一设定数量的概率值的均值;将所述均值与设定阈值进行比较;若所述均值大于或者等于所述设定阈值,则确定所述待本文档来自技高网...

【技术保护点】
1.一种非正常纳税人识别方法,其特征在于,所述方法包括:获取待识别纳税人的选定信息;从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值;将所述待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到所述待识别纳税人的第一设定数量的概率值;基于所述待识别纳税人的第一设定数量的概率值得到所述待识别纳税人的识别结果。

【技术特征摘要】
1.一种非正常纳税人识别方法,其特征在于,所述方法包括:获取待识别纳税人的选定信息;从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值;将所述待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到所述待识别纳税人的第一设定数量的概率值;基于所述待识别纳税人的第一设定数量的概率值得到所述待识别纳税人的识别结果。2.如权利要求1所述的方法,其特征在于,从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值,具体包括:从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的初始特征值;将所述待识别纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述待识别纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述待识别纳税人的至少一个选定特征的初始特征值进行标准化处理,得到所述待识别纳税人的至少一个选定特征的特征值。3.如权利要求1所述的方法,其特征在于,基于所述第一设定数量的概率值得到识别结果,具体包括:计算所述第一设定数量的概率值的均值;将所述均值与设定阈值进行比较;若所述均值大于或等于所述设定阈值,则确定所述待识别纳税人为非正常纳税人;若所述均值小于所述设定阈值,则确定所述待识别纳税人为正常纳税人。4.如权利要求1-3任一所述的方法,其特征在于,还包括:获取第二设定数量的正常纳税人的选定信息和第三设定数量的非正常纳税人的选定信息;从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,将各个正常纳税人的至少一个选定特征的特征值和正常纳税人标签添加到特征值标签宽表中;从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,将各个非正常纳税人的至少一个选定特征的特征值和非正常纳税人标签添加到所述特征值标签宽表中;从所述特征值标签宽表中获取测试样本集和所述第一设定数量的训练样本集;将所述第一设定数量的训练样本集中各个纳税人的至少一个选定特征的特征值和对应的标签分别输入到初始的xgboost模型,得到所述第一设定数量的候选的xgboost模型;使用所述测试样本集中各个纳税人的至少一个选定特征的特征值和对应的标签测试所述第一设定数量的候选的xgboost模型;基于测试结果确定精确率和召回率;若所述精确率和所述召回率均达标,则将所述第一设定数量的候选的xgboost模型确定为所述第一设定数量的训练后的xgboost模型。5.如权利要求4所述的方法,其特征在于,从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,具体包括:从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的初始特征值;将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的正常纳税人的的至少一个选定特征的特征值。6.如权利要求4所述的方法,其特征在于,从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,具体包括:从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的初始特征值;将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的非正常纳税人的的至少一个选定特征的特征值。7.如权利要求4所述的方法,其特征在于,从所述特征值标签宽表中获取测试样本集和所述第一设定数量的训练样本集,具体包括:将所述特征值标签宽表中的非正常纳税人按照预设比例划分为两份,得到第一非正常纳税人集合和第二非正常纳税人集合;针对所述第一设定数量的训练样本集中的每个训练样本集,执行:从所述特征值标签宽表中抽取与所述第一非正常纳税人集合包括的非正常纳税人数量相同且之前未被抽取的正常纳税人,将抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与所述第一非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到一个训练样本集;将所述特征值标签宽表中未被抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与所述第二非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到测试样本集。8.如权利要求4所述的方法,其特征在于,基于测试结果确定精确率和召回率,具体包括:所述精确率的计算公式如下:Precision=TP/(TP+FP);所述召回率的计算公式如下:Recall=TP/(TP+FN);其中,假设将非正常纳税人样本为正样本,正常纳税人样本为负样本,TP表示测试结果为正样本、实际也为正样本的样本数量,FP表示测试结果为正样本、实际为负样本的样本数量,FN表示测试结果为负样本、实际为正样本的样本数量。9.一种非正常纳税人识别装置,其特征在于,所述装置包括:第一获取模块,用于获取待识别纳税人的选定信息;第二获取模块,用于从所述待识别纳税人的选定信息中获取所述待识...

【专利技术属性】
技术研发人员:刘芬舒南飞林文辉王志刚
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1