【技术实现步骤摘要】
增值税发票的检测方法、装置和可读存储介质
本专利技术涉及检测
,具体而言,涉及一种增值税发票的检测方法、装置和可读存储介质。
技术介绍
增值税发票洗票企业检测是指对涉嫌增值税专用发票洗票行为的一般纳税实体(企业)进行检测和甄别。在实现本专利技术的过程中,本专利技术的专利技术人发现:相关方案在增值税专用发票洗票企业检测时,存在着检测准确率较低、检测方案泛化性能较差以及检测方案可扩展性较差等不足,难以满足税务稽查、风控等部门的实际业务需求等问题。
技术实现思路
本专利技术旨在解决上述技术问题的至少之一。为此,本专利技术的第一目的在于提供一种增值税发票的检测方法。本专利技术的第二目的在于提供一种增值税发票的检测装置。本专利技术的第三目的在于提供一种可读存储介质。为实现本专利技术的第一目的,本专利技术的技术方案提供了一种增值税发票的检测方法,包括:获取数据,数据包括增值税发票数据、企业申报数据和企业变更数据,对数据进行数据处理,得到清洁数据;基于清洁数据,提取第一特征向量,获取第一特征向量集合;基于第一特征向量集合,采用第一风险量化模型进行检测,得到第一风险量化值;获取企业关联数据,构建企业关联关系拓扑图;基于企业关联关系拓扑图,获取风险扩散变量;基于风险扩散变量和第一风险量化值,计算第二特征向量,获取第二特征向量集合;基于第二特征向量集合,采用第二风险量化模型进行检测,获取第二风险量化值。本实施例提出了洗票风险扩散机制,对洗票风险在企业之间的扩散过程 ...
【技术保护点】
1.一种增值税发票的检测方法,其特征在于,包括:/n获取数据,所述数据包括增值税发票数据、企业申报数据和企业变更数据,对所述数据进行数据处理,得到清洁数据;/n基于所述清洁数据,提取第一特征向量,获取第一特征向量集合;/n基于所述第一特征向量集合,采用第一风险量化模型进行检测,得到第一风险量化值;/n获取企业关联数据,构建企业关联关系拓扑图;/n基于所述企业关联关系拓扑图,获取风险扩散变量;/n基于所述风险扩散变量和所述第一风险量化值,计算第二特征向量,获取第二特征向量集合;/n基于所述第二特征向量集合,采用第二风险量化模型进行检测,获取第二风险量化值。/n
【技术特征摘要】
1.一种增值税发票的检测方法,其特征在于,包括:
获取数据,所述数据包括增值税发票数据、企业申报数据和企业变更数据,对所述数据进行数据处理,得到清洁数据;
基于所述清洁数据,提取第一特征向量,获取第一特征向量集合;
基于所述第一特征向量集合,采用第一风险量化模型进行检测,得到第一风险量化值;
获取企业关联数据,构建企业关联关系拓扑图;
基于所述企业关联关系拓扑图,获取风险扩散变量;
基于所述风险扩散变量和所述第一风险量化值,计算第二特征向量,获取第二特征向量集合;
基于所述第二特征向量集合,采用第二风险量化模型进行检测,获取第二风险量化值。
2.根据权利要求1所述的增值税发票的检测方法,其特征在于,在所述获取数据之前,还包括:
建立梯度提升树模型;
获取历史稽查数据集合,将所述历史稽查数据集合划分为训练数据集合、测试数据集合和验证数据集合;
分别获取所述训练数据集合、所述测试数据集合和所述验证数据集合的第一特征向量集合;
基于所述训练数据集合、所述测试数据集合和所述验证数据集合的第一特征向量集合,采用交叉验证方式,对所述梯度提升树模型进行训练和参数调整,得到所述第一风险量化模型。
3.根据权利要求1所述的增值税发票的检测方法,其特征在于,所述对所述数据进行数据处理,具体包括:
对所述数据进行缺失值处理、异常值处理、量纲处理、去重处理和/或噪声处理。
4.根据权利要求1所述的增值税发票的检测方法,其特征在于,所述基于所述清洁数据,提取第一特征向量,获取第一特征向量集合,具体包括:
根据所述清洁数据,抽取企业进销数量特征、企业进销金额特征、企业集中开票特征、企业顶额开票特征、企业开票金额变化特征、抽取企业变更特征和企业申报特征;
获取所述第一特征向量集合,所述第一特征向量集合包括所述企业进销数量特征、所述企业进销金额特征、所述企业集中开票特征、所述企业顶额开票特征、所述企业开票金额变化特征、所述企业变更特征和所述企业申报特征。
5.根据权利要求4所述的增值税发票的检测方法,其特征在于,
所述企业进销数量特征为:
,
其中,Vec1表示所述企业进销数量特征,|Ni|表示企业进项货物集合的规模,|N0|表示企业销项货物集合规模;
所述企业进销金额特征为:
,
其中,Vec2表示所述企业进销金额特征,ni示企业第i项进项货物的金额,nj表示企业第j项销项货物的金额;
所述企业集中开票特征为:
其中,Vec3表示所述企业集中开票特征,Enti表示第i个月发票分布信息熵,pij表示第i个企业开具的第j种商品的发票分布,Mi表示第i个企业所开具的商品种类总数,变量i不大于3;
所述企业顶额开票特征为:
其中,Vec4表示所述企业顶额开票特征,N0表示企业开票集合,ωi表示第i张发票金额的权重,mti表示第i张...
【专利技术属性】
技术研发人员:郭建彬,黄泰文,王磊,罗引,曹家,盘浩军,
申请(专利权)人:北京中科闻歌科技股份有限公司,深圳中科闻歌科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。