【技术实现步骤摘要】
一种基于动态网络表征的发票虚开识别方法
本专利技术属于税控
,特别涉及一种基于动态网络表征的发票虚开识别方法。
技术介绍
发票虚开是指企业动用各种行为手段开具与实际经营业务情况不符的发票,以达到偷漏税的目的。虚开发票的行为将造成国家税收的巨大损失,严重破坏国家经济秩序。目前的税务局识别发票虚开嫌疑企业的途径主要为:举报、日常监管抽查和问题企业牵连,然后再由税务稽查人员基于企业提供的报表进行核对。这些稽查都具有极大的偶然性,无法系统地对所有企业进行分析评估;而且单凭税务稽查人员人工核对工作量大效率低,检查数据还局限在单家企业提供的报表,无法结合上下游有关联的企业。为了解决当前发票虚开识别所面临的问题,网络表征技术提供了一种解决途径。基于网络表征的发票虚开识别方法可以把孤立的报表信息组织成为企业交易网络,从而系统地核查所有企业,同时还可以用企业间的联系得到更多的企业信息用以识别发票虚开企业。以下专利提供了可参考的基于网络表征技术通过计算机自动地进行发票虚开识别的相关方法:文献1.一种基于并行环路检测的虚开增值税专用发票检测方法(201710147850.8);文献2.一种基于纳税人利益关联网络的可疑纳税人识别方法(201410328391.X);文献1以企业为节点把发票信息组织成静态网络,并对网络中的环路检测进行改进,改进方法为通过分布式并行计算方法将计算任务分配给分布式集群中的多台计算机以提高效率,最终通过改进的环路检测方法来进行虚开增值税专用发票检测。文献2基于纳 ...
【技术保护点】
1.一种基于动态网络表征的发票虚开识别方法,其特征在于,首先,以企业为节点、交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在时序窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高模型的学习效率;最后,基于LightGBM构建二分类器识别出发票虚开嫌疑企业。/n
【技术特征摘要】
1.一种基于动态网络表征的发票虚开识别方法,其特征在于,首先,以企业为节点、交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在时序窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高模型的学习效率;最后,基于LightGBM构建二分类器识别出发票虚开嫌疑企业。
2.根据权利要求1所述的一种基于动态网络表征的发票虚开识别方法,其特征在于,该方法具体包括以下实现步骤:
1)基本特征提取
首先对数据进行预处理,然后提取企业基本信息,企业基本信息大致分为三个类型:对文本型数据用word2vec算法转换为向量,对类别型数据用One-Hot编码,对数值型数据进行标准化处理;
2)基于动态网络表征的特征提取
提取企业基本特征后,以企业为节点,企业基本信息为节点属性,以交易记录为边,交易信息为边的属性,以每一天为时间节点,把企业交易信息组织成静态网络;然后以30天为单位建立时序窗口,在窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间的静态网络表征,优化网络表征的目标函数,最后得到最优的动态企业交易网络表征;
3)基于分布式的算法优化
为了提高动态网络表征的学习效率,借鉴分布式优化算法,把动态企业交易网络表征的目标函数分解为独立子函数,并行优化子函数加速了大规模复杂的企业交易网络表征的求解;
4)构建分类器识别发票虚开
基于LightGBM分类器构建二分类模型,把计算得到的动态网络表征作为分类器的学习数据,用已标记的企业样本集来训练模型,然后把需要进行预测的企业样本集的表征结果放入训练好的模型中进行预测,最后根据预测模型的输出确定目标企业是否存在发票虚开行为。
3.根据权利要求2所述的一种基于动态网络表征的发票虚开识别方法,其特征在于,步骤1)的实现方法如下:
步骤101:数据预处理
(1)提取“纳税人电子档案号”,作为企业特征唯一标识;
(2)处理缺失值:数据缺失严重的属性和与发票虚开任务不相关的属性直接删去,有少量缺失的重要属性用同类均值插补的方法补全缺失值;
步骤102:处理文本型数据
对企业基本信息表中的文本信息处理包括:
(1)使用Jieba分词工具把企业的文本型数据进行分词;
(2)用词典树统计分词的结果,选择出权重较大的词作为关键词;
(3)基于word2vec将提取出来的N类关键词转成向量;
步骤103:处理标志型数据
对企业基本信息表中离散的类别型数据采用One-Hot编码;以属性取值的数量为长度建立状态位标志每一特定状态;
步骤104:处理数值型数据
对企业基本信息表中的数值型数据采用传统的标准化方法进行处理:
(1)求各属性的均值;
(2)求各属性的方差;
(3)Z-Score标准化。
4.根据权利要求3所述的一种基于动态网络表征的发票虚开识别方法,其特征在于,步骤2)的实现方法如下:
步骤201:建立静态的企业交易网络
每一天都建立一个企业交易网络的表征模型,使得具有相似拓扑结构或者交易权重更高的企业在表征空间离得更近,目标优化函数为:
其中hi,hj是企业i,j的表征;wij是企业...
【专利技术属性】
技术研发人员:董博,郑庆华,范弘铖,田雨润,高宇达,袁靖松,阮建飞,张发,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。