一种基于动态网络表征的发票虚开识别方法技术

技术编号:23447046 阅读:51 留言:0更新日期:2020-02-28 20:54
本发明专利技术公开了一种基于动态网络表征的发票虚开识别方法。首先,以企业为节点、以交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高了模型的学习效率;最后,基于LightGBM构建二分类器识别出发票虚开嫌疑企业。本发明专利技术基于动态网络表征来识别发票虚开嫌疑企业,提高了发票虚开识别的效率和准确率。

A recognition method of false invoice based on dynamic network representation

【技术实现步骤摘要】
一种基于动态网络表征的发票虚开识别方法
本专利技术属于税控
,特别涉及一种基于动态网络表征的发票虚开识别方法。
技术介绍
发票虚开是指企业动用各种行为手段开具与实际经营业务情况不符的发票,以达到偷漏税的目的。虚开发票的行为将造成国家税收的巨大损失,严重破坏国家经济秩序。目前的税务局识别发票虚开嫌疑企业的途径主要为:举报、日常监管抽查和问题企业牵连,然后再由税务稽查人员基于企业提供的报表进行核对。这些稽查都具有极大的偶然性,无法系统地对所有企业进行分析评估;而且单凭税务稽查人员人工核对工作量大效率低,检查数据还局限在单家企业提供的报表,无法结合上下游有关联的企业。为了解决当前发票虚开识别所面临的问题,网络表征技术提供了一种解决途径。基于网络表征的发票虚开识别方法可以把孤立的报表信息组织成为企业交易网络,从而系统地核查所有企业,同时还可以用企业间的联系得到更多的企业信息用以识别发票虚开企业。以下专利提供了可参考的基于网络表征技术通过计算机自动地进行发票虚开识别的相关方法:文献1.一种基于并行环路检测的虚开增值税专用发票检测方法(201710147850.8);文献2.一种基于纳税人利益关联网络的可疑纳税人识别方法(201410328391.X);文献1以企业为节点把发票信息组织成静态网络,并对网络中的环路检测进行改进,改进方法为通过分布式并行计算方法将计算任务分配给分布式集群中的多台计算机以提高效率,最终通过改进的环路检测方法来进行虚开增值税专用发票检测。文献2基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人,对纳税人利益关联网络进行拓扑特征的分析,得到纳税人在利益关联网络中的表征,再使用C4.5分类器实验,从而实现自动识别可疑纳税人的功能。以上文献所述方法主要存在以下问题:文献1仅能检测资金经过多个账户后重新回到源账户的发票虚开行为,而发票虚开形式多样,不局限于环路形式,该方法的识别类型过于单一,模型的泛化能力较差;文献2仅基于纳税人和利益关系的拓扑结构,忽略了企业的属性信息,将企业同一化,无法从企业的规模、市场份额等角度来分析;文献1和文献2都局限于静态网络,无法结合历史信息动态地分析企业交易的变化,无法准确把握其动态变化,就让一些企业有机可乘。例如,某偷漏税企业每年的账单单独看是毫无问题,连续几年处于亏损状态,但水电成本却逐年增加,发票虚开行为通常会隐藏在这类和时间序列相关的特征中,而静态网络无法捕捉这类特征。
技术实现思路
为了提高发票虚开识别的效率,本专利技术的目的在于提供一种基于动态网络表征的发票虚开识别方法。本专利技术采用动态网络表征,结合历史信息动态地分析企业交易网络,准确把握企业交易的动态变化;而且基于企业间的关联信息能够识别不同的发票虚开行为;同时借鉴了分布式优化算法,把计算函数分解为独立子函数并行执行,提高了发票虚开识别的效率。为达到上述目的,本专利技术是采取以下技术方案予以实现的:一种基于动态网络表征的发票虚开识别方法,首先,以企业为节点、交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在时序窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高模型的学习效率;最后,基于LightGBM构建二分类器识别出发票虚开嫌疑企业。本专利技术进一步的改进在于,该方法具体包括以下实现步骤:1)基本特征提取首先对数据进行预处理,然后提取企业基本信息,企业基本信息大致分为三个类型:对文本型数据用word2vec算法转换为向量,对类别型数据用One-Hot编码,对数值型数据进行标准化处理;2)基于动态网络表征的特征提取提取企业基本特征后,以企业为节点,企业基本信息为节点属性,以交易记录为边,交易信息为边的属性,以每一天为时间节点,把企业交易信息组织成静态网络;然后以30天为单位建立时序窗口,在窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间的静态网络表征,优化网络表征的目标函数,最后得到最优的动态企业交易网络表征;3)基于分布式的算法优化为了提高动态网络表征的学习效率,借鉴分布式优化算法,把动态企业交易网络表征的目标函数分解为独立子函数,并行优化子函数加速了大规模复杂的企业交易网络表征的求解;4)构建分类器识别发票虚开基于LightGBM分类器构建二分类模型,把计算得到的动态网络表征作为分类器的学习数据,用已标记的企业样本集来训练模型,然后把需要进行预测的企业样本集的表征结果放入训练好的模型中进行预测,最后根据预测模型的输出确定目标企业是否存在发票虚开行为。本专利技术进一步的改进在于,步骤1)的实现方法如下:步骤101:数据预处理(1)提取“纳税人电子档案号”,作为企业特征唯一标识;(2)处理缺失值:数据缺失严重的属性和与发票虚开任务不相关的属性直接删去,有少量缺失的重要属性用同类均值插补的方法补全缺失值;步骤102:处理文本型数据对企业基本信息表中的文本信息处理包括:(1)使用Jieba分词工具把企业的文本型数据进行分词;(2)用词典树统计分词的结果,选择出权重较大的词作为关键词;(3)基于word2vec将提取出来的N类关键词转成向量;步骤103:处理标志型数据对企业基本信息表中离散的类别型数据采用One-Hot编码;以属性取值的数量为长度建立状态位标志每一特定状态;步骤104:处理数值型数据对企业基本信息表中的数值型数据采用传统的标准化方法进行处理:(1)求各属性的均值;(2)求各属性的方差;(3)Z-Score标准化。本专利技术进一步的改进在于,步骤2)的实现方法如下:步骤201:建立静态的企业交易网络每一天都建立一个企业交易网络的表征模型,使得具有相似拓扑结构或者交易权重更高的企业在表征空间离得更近,目标优化函数为:其中hi,hj是企业i,j的表征;wij是企业间交易的权重;最小化wij||hi-hj||2时,就迫使越大的交易权重wij对应的企业表征hi,hj越接近;最小化目标得到该天优化后的企业交易网络表征h;步骤202:动态融合历史信息建立一个长度为30天的时序窗口,在窗口内每次融合30天的静态网络表征,然后移动时序窗口,逐步融合所有静态网络表征,最终得到动态的企业交易网络表征,对应的优化目标是:其中分别表示第t天的企业p,q的表征和企业间交易的权重,则表示企业p和企业q的表征的近似程度;Hi表示时序窗口内第i天的网络表征;惩罚项使表征学习到的矩阵尽量逼近原企业交易网络的矩阵,ρ是一个定义模型的结构特性和对原矩阵逼近程度贡献程度的参数,ρ越大模型越本文档来自技高网
...

【技术保护点】
1.一种基于动态网络表征的发票虚开识别方法,其特征在于,首先,以企业为节点、交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在时序窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高模型的学习效率;最后,基于LightGBM构建二分类器识别出发票虚开嫌疑企业。/n

【技术特征摘要】
1.一种基于动态网络表征的发票虚开识别方法,其特征在于,首先,以企业为节点、交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在时序窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高模型的学习效率;最后,基于LightGBM构建二分类器识别出发票虚开嫌疑企业。


2.根据权利要求1所述的一种基于动态网络表征的发票虚开识别方法,其特征在于,该方法具体包括以下实现步骤:
1)基本特征提取
首先对数据进行预处理,然后提取企业基本信息,企业基本信息大致分为三个类型:对文本型数据用word2vec算法转换为向量,对类别型数据用One-Hot编码,对数值型数据进行标准化处理;
2)基于动态网络表征的特征提取
提取企业基本特征后,以企业为节点,企业基本信息为节点属性,以交易记录为边,交易信息为边的属性,以每一天为时间节点,把企业交易信息组织成静态网络;然后以30天为单位建立时序窗口,在窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间的静态网络表征,优化网络表征的目标函数,最后得到最优的动态企业交易网络表征;
3)基于分布式的算法优化
为了提高动态网络表征的学习效率,借鉴分布式优化算法,把动态企业交易网络表征的目标函数分解为独立子函数,并行优化子函数加速了大规模复杂的企业交易网络表征的求解;
4)构建分类器识别发票虚开
基于LightGBM分类器构建二分类模型,把计算得到的动态网络表征作为分类器的学习数据,用已标记的企业样本集来训练模型,然后把需要进行预测的企业样本集的表征结果放入训练好的模型中进行预测,最后根据预测模型的输出确定目标企业是否存在发票虚开行为。


3.根据权利要求2所述的一种基于动态网络表征的发票虚开识别方法,其特征在于,步骤1)的实现方法如下:
步骤101:数据预处理
(1)提取“纳税人电子档案号”,作为企业特征唯一标识;
(2)处理缺失值:数据缺失严重的属性和与发票虚开任务不相关的属性直接删去,有少量缺失的重要属性用同类均值插补的方法补全缺失值;
步骤102:处理文本型数据
对企业基本信息表中的文本信息处理包括:
(1)使用Jieba分词工具把企业的文本型数据进行分词;
(2)用词典树统计分词的结果,选择出权重较大的词作为关键词;
(3)基于word2vec将提取出来的N类关键词转成向量;
步骤103:处理标志型数据
对企业基本信息表中离散的类别型数据采用One-Hot编码;以属性取值的数量为长度建立状态位标志每一特定状态;
步骤104:处理数值型数据
对企业基本信息表中的数值型数据采用传统的标准化方法进行处理:
(1)求各属性的均值;
(2)求各属性的方差;
(3)Z-Score标准化。


4.根据权利要求3所述的一种基于动态网络表征的发票虚开识别方法,其特征在于,步骤2)的实现方法如下:
步骤201:建立静态的企业交易网络
每一天都建立一个企业交易网络的表征模型,使得具有相似拓扑结构或者交易权重更高的企业在表征空间离得更近,目标优化函数为:



其中hi,hj是企业i,j的表征;wij是企业...

【专利技术属性】
技术研发人员:董博郑庆华范弘铖田雨润高宇达袁靖松阮建飞张发
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1