增值税发票的检测方法、装置和可读存储介质制造方法及图纸

技术编号:29405533 阅读:15 留言:0更新日期:2021-07-23 22:44
本发明专利技术提供了一种增值税发票的检测方法、装置和可读存储介质。增值税发票的检测方法,包括获取数据,对数据进行数据处理,得到清洁数据;基于清洁数据,获取第一特征向量集合;基于第一特征向量集合,采用第一风险量化模型进行检测,得到第一风险量化值;基于企业关联关系拓扑图,获取风险扩散变量;基于风险扩散变量和第一风险量化值,获取第二特征向量集合;基于第二特征向量集合,采用第二风险量化模型进行检测,获取第二风险量化值。本发明专利技术提出了洗票风险扩散机制,对洗票风险在企业之间的扩散过程进行建模,实现了企业间风险扩散行为的精确捕获与计算,同时清晰地区分了正常企业与洗票嫌疑企业。

【技术实现步骤摘要】
增值税发票的检测方法、装置和可读存储介质
本专利技术涉及检测
,具体而言,涉及一种增值税发票的检测方法、装置和可读存储介质。
技术介绍
增值税发票洗票企业检测是指对涉嫌增值税专用发票洗票行为的一般纳税实体(企业)进行检测和甄别。在实现本专利技术的过程中,本专利技术的专利技术人发现:相关方案在增值税专用发票洗票企业检测时,存在着检测准确率较低、检测方案泛化性能较差以及检测方案可扩展性较差等不足,难以满足税务稽查、风控等部门的实际业务需求等问题。
技术实现思路
本专利技术旨在解决上述技术问题的至少之一。为此,本专利技术的第一目的在于提供一种增值税发票的检测方法。本专利技术的第二目的在于提供一种增值税发票的检测装置。本专利技术的第三目的在于提供一种可读存储介质。为实现本专利技术的第一目的,本专利技术的技术方案提供了一种增值税发票的检测方法,包括:获取数据,数据包括增值税发票数据、企业申报数据和企业变更数据,对数据进行数据处理,得到清洁数据;基于清洁数据,提取第一特征向量,获取第一特征向量集合;基于第一特征向量集合,采用第一风险量化模型进行检测,得到第一风险量化值;获取企业关联数据,构建企业关联关系拓扑图;基于企业关联关系拓扑图,获取风险扩散变量;基于风险扩散变量和第一风险量化值,计算第二特征向量,获取第二特征向量集合;基于第二特征向量集合,采用第二风险量化模型进行检测,获取第二风险量化值。本实施例提出了洗票风险扩散机制,对洗票风险在企业之间的扩散过程进行建模,实现了企业间风险扩散行为的精确捕获与计算,同时清晰地区分了正常企业与洗票嫌疑企业。另外,本专利技术提供的技术方案还可以具有如下附加技术特征:上述技术方案中,在获取数据之前还包括:建立梯度提升树模型;获取历史稽查数据集合,将历史稽查数据集合划分为训练数据集合、测试数据集合和验证数据集合;分别获取训练数据集合、测试数据集合和验证数据集合的第一特征向量集合;基于训练数据集合、测试数据集合和验证数据集合的第一特征向量集合,采用交叉验证方式,对梯度提升树模型进行训练和参数调整,得到第一风险量化模型。本实施例中,采用梯度提升树模型作为最终的检测算法,可以显著提高洗票企业检测的精确率以及召回率,在提高洗票企业检测效率的同时确保稽查工作的有效开展。上述任一技术方案中,对数据进行数据处理,具体包括:对数据进行缺失值处理、异常值处理、量纲处理、去重处理和/或噪声处理。本实施例中,通过对数据进行预处理,实现数据的标准化,使预处理后的数据符合机器学习算法的要求,降低数据因素对检测模型推理性能的影响。上述任一技术方案中,基于清洁数据,提取第一特征向量,获取第一特征向量集合,具体包括:根据清洁数据,抽取企业进销数量特征、企业进销金额特征、企业集中开票特征、企业顶额开票特征、企业开票金额变化特征、抽取企业变更特征和企业申报特征;获取第一特征向量集合,第一特征向量集合包括企业进销数量特征、企业进销金额特征、企业集中开票特征、企业顶额开票特征、企业开票金额变化特征、企业变更特征和企业申报特征。本实施例中,第一特征向量集合可以有效的反映出企业是否存在洗票行为。上述任一技术方案中,企业进销数量特征为:,其中,Vec1表示企业进销数量特征,|Ni|表示企业进项货物集合的规模,|N0|表示企业销项货物集合规模;企业进销金额特征为:,其中,Vec2表示企业进销金额特征,ni示企业第i项进项货物的金额,nj表示企业第j项销项货物的金额;企业集中开票特征为:其中,Vec3表示企业集中开票特征,Enti表示第i个月发票分布信息熵,pij表示第i个企业开具的第j种商品的发票分布,Mi表示第i个企业所开具的商品种类总数,变量i不大于3;企业顶额开票特征为:其中,Vec4表示所述企业顶额开票特征,N0表示企业开票集合,ωi表示第i张发票金额的权重,mti表示第i张发票的金额,diff(mti)表示第i张发票开票额度与发票额度上限的差值,li表示第i张发票的开票金额的位数,mtj表示第j张发票的开票金额;企业开票金额变化特征为:,其中,Vec5表示企业开票金额变化特征,表示所开具发票的金额均值;企业变更特征为:根据清洁数据中的企业变更数据,判定企业是否发生变更行为;企业申报特征为:根据清洁数据中的企业申报数据,判定企业是否发生交税行为。本实施例中,给出企业进销数量特征、企业进销金额特征、企业集中开票特征、企业顶额开票特征、企业开票金额变化特征、企业变更特征和企业申报特征的具体获取方法,使得第一风险量化模型可以准确的得到的第一风险量化值。上述任一技术方案中,获取企业关联数据,构建企业关联关系拓扑图,具体包括:构建节点vi,获取节点vi上的数值tiin和数值tiout,获取节点vi与节点vj之间的边eij,获取边上的数值mij,其中,vi表示第i个企业,V表示拓扑图中节点集合,vi∈V,tiin表示vi在规定时间内的进项金额总和,Tin表示企业进项金额的集合,tiin∈Tin,tiout表示vi在规定时间内的销项金额总和,Tout表示企业销项金额的集合,tiout∈Tout,eij表示第i个企业与第j个企业之间在规定时间间隔内的交易关系,E表示拓扑图中边的集合,eij∈E,mij表示第i个企业与第j个企业之间在规定时间间隔内的交易金额,M表示第i个企业与第j个企业之间的交易金额的集合,mij∈M。本实施例给出了构建企业关联关系拓扑图的具体方法,通过构建企业关联关系拓扑图,考虑企业之间的漂流关系(即企业之间的交易关系),可以更好的实现对企业洗票风险的精确量化。上述任一技术方案中,基于企业关联关系拓扑图,获取风险扩散变量,具体包括:获取风险接受度:其中:ACCij表示第i个企业接受第j个企业的风险接受度;获取风险输出度:其中:EXPij表示第i个企业向第j个企业输出风险的风险输出度;获取风险差分变量:其中:diffij表示第i个企业与第j个企业之间的风险差分变量,Ri表示第i个企业的风险量化值,Rj表示第j个企业的风险量化值。本实施例中,给出风险接受度、风险输出度和风险差分变量的具体公式,通过上述公式,可以准确的得出风险扩散变量,进而实现对企业洗票风险的再量化。上述任一技术方案中,获取数据之前还包括:建立逻辑斯蒂回归模型;获取历史稽查数据集合;根据历史稽查数据集合,获取历史稽查数据集合的第二特征向量集合;基于历史稽查数据集合的第二特征向量集合,对逻辑斯蒂回归模型进行训练,得到第二风险量化模型。本实施例中,基于构见的第二特征向量集合,对逻辑斯蒂回归模型进行训练,构建第二风险量化模型,通过第二风险量化模型对第一风险量化值进行再量化,利用企业风险传播结果实现对企业洗票风险的动态评估和再量化,提高了洗票企业风险量本文档来自技高网...

【技术保护点】
1.一种增值税发票的检测方法,其特征在于,包括:/n获取数据,所述数据包括增值税发票数据、企业申报数据和企业变更数据,对所述数据进行数据处理,得到清洁数据;/n基于所述清洁数据,提取第一特征向量,获取第一特征向量集合;/n基于所述第一特征向量集合,采用第一风险量化模型进行检测,得到第一风险量化值;/n获取企业关联数据,构建企业关联关系拓扑图;/n基于所述企业关联关系拓扑图,获取风险扩散变量;/n基于所述风险扩散变量和所述第一风险量化值,计算第二特征向量,获取第二特征向量集合;/n基于所述第二特征向量集合,采用第二风险量化模型进行检测,获取第二风险量化值。/n

【技术特征摘要】
1.一种增值税发票的检测方法,其特征在于,包括:
获取数据,所述数据包括增值税发票数据、企业申报数据和企业变更数据,对所述数据进行数据处理,得到清洁数据;
基于所述清洁数据,提取第一特征向量,获取第一特征向量集合;
基于所述第一特征向量集合,采用第一风险量化模型进行检测,得到第一风险量化值;
获取企业关联数据,构建企业关联关系拓扑图;
基于所述企业关联关系拓扑图,获取风险扩散变量;
基于所述风险扩散变量和所述第一风险量化值,计算第二特征向量,获取第二特征向量集合;
基于所述第二特征向量集合,采用第二风险量化模型进行检测,获取第二风险量化值。


2.根据权利要求1所述的增值税发票的检测方法,其特征在于,在所述获取数据之前,还包括:
建立梯度提升树模型;
获取历史稽查数据集合,将所述历史稽查数据集合划分为训练数据集合、测试数据集合和验证数据集合;
分别获取所述训练数据集合、所述测试数据集合和所述验证数据集合的第一特征向量集合;
基于所述训练数据集合、所述测试数据集合和所述验证数据集合的第一特征向量集合,采用交叉验证方式,对所述梯度提升树模型进行训练和参数调整,得到所述第一风险量化模型。


3.根据权利要求1所述的增值税发票的检测方法,其特征在于,所述对所述数据进行数据处理,具体包括:
对所述数据进行缺失值处理、异常值处理、量纲处理、去重处理和/或噪声处理。


4.根据权利要求1所述的增值税发票的检测方法,其特征在于,所述基于所述清洁数据,提取第一特征向量,获取第一特征向量集合,具体包括:
根据所述清洁数据,抽取企业进销数量特征、企业进销金额特征、企业集中开票特征、企业顶额开票特征、企业开票金额变化特征、抽取企业变更特征和企业申报特征;
获取所述第一特征向量集合,所述第一特征向量集合包括所述企业进销数量特征、所述企业进销金额特征、所述企业集中开票特征、所述企业顶额开票特征、所述企业开票金额变化特征、所述企业变更特征和所述企业申报特征。


5.根据权利要求4所述的增值税发票的检测方法,其特征在于,
所述企业进销数量特征为:


其中,Vec1表示所述企业进销数量特征,|Ni|表示企业进项货物集合的规模,|N0|表示企业销项货物集合规模;
所述企业进销金额特征为:


其中,Vec2表示所述企业进销金额特征,ni示企业第i项进项货物的金额,nj表示企业第j项销项货物的金额;
所述企业集中开票特征为:



其中,Vec3表示所述企业集中开票特征,Enti表示第i个月发票分布信息熵,pij表示第i个企业开具的第j种商品的发票分布,Mi表示第i个企业所开具的商品种类总数,变量i不大于3;
所述企业顶额开票特征为:



其中,Vec4表示所述企业顶额开票特征,N0表示企业开票集合,ωi表示第i张发票金额的权重,mti表示第i张...

【专利技术属性】
技术研发人员:郭建彬黄泰文王磊罗引曹家盘浩军
申请(专利权)人:北京中科闻歌科技股份有限公司深圳中科闻歌科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1