一种进销商品匹配度计算方法及虚开发票风险发现方法技术

技术编号:23051743 阅读:73 留言:0更新日期:2020-01-07 15:01
本发明专利技术公开了一种进销商品匹配度计算方法及虚开发票风险发现方法。本发明专利技术虚开发票风险发现方法的步骤包括:1)对进销商品的商品名称进行规范化;2)将同一纳税人的进销商品集合中的每一商品名称抽象为一单词,从而将该纳税人的进销商品集合抽象为一文档,并根据进销商品的价格排列商品在该文档中的位置;然后利用商品在文档中的上下文商品信息训练得到各商品对应的最终语义向量;3)基于商品的最终语义向量,计算同一纳税人的进销商品集合的匹配度;根据所述匹配度判断对应纳税人的虚开发票风险。本发明专利技术使得税务机关在提高服务水平的同时也能很好的防范税收风险。

A calculation method of the matching degree of the imported and sold goods and the risk discovery method of the false invoice

【技术实现步骤摘要】
一种进销商品匹配度计算方法及虚开发票风险发现方法
本专利技术涉及一种纳税人虚开发票风险发现方法,具体的说是一种基于进销商品匹配度的虚开风险发现方法,属于计算机大数据处理领域。
技术介绍
近年来,国家一直在积极探索深化改革,在简政放权、放管结合、优化服务方面进行改革。税务系统也积极响应国家号召进行了一系列放管服措施,降低企业和个人进行注册登记的门槛和手续,提供多元化的登记、注册、申报方式,显著降低了纳税人的登记注册的难度。虽然这些政策为广大纳税人提供了诸多的便利和优惠,但同时也增加了税收方面的风险,给一些不法分子更多的可乘之机,这些不法分子利用国家税收优惠政策和纳税人服务的便利,大肆虚开增值税发票,以此谋取个人利益,破坏国家的诚信体系,违背纳税人的依法纳税义务,并协助正常经营的企业进行偷税、漏税和骗税行为。这些不法分子为了避开税务机关对虚开发票的打击,通常会进行多次变票、洗票环节,最后将票出售给用票企业。因为发票开具链条比较长,涉及的企业多,稽查部门很难即时发现这些不法分子。目前针对不法分子进行大量发票虚开,虚开商品随市场不断变化的现状,通常采取的方法是稽查人员基于专家经验通过人工条件选取、分析虚开纳税人,但是此种处理方法既费时费力,又存在准确率低、覆盖面小的问题。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种基于纳税人进销商品集合匹配度的税务大数据分析方法,用来进行纳税人虚开风险的预测。本专利技术提供一种可以计算进销商品匹配度的税务大数据分析方法,通过计算纳税人进项商品集合和销项商品集合的匹配度,可以衡量纳税人进销商品之间的合理性,而进销不合理的纳税人存在极大的税务风险,因此,可以通过该方法,自动发现存在虚开发票风险度高的纳税人,改善原来稽查人员进行人工分析纳税人进销商品合理性的工作,使得税务机关在提高服务水平的同时也能很好的防范税收风险。本专利技术的技术方案为:一种进销商品匹配度计算方法,其步骤包括:1)对进销商品的商品名称进行规范化;2)将同一纳税人的进销商品集合中的每一商品名称抽象为一单词,从而将该纳税人的进销商品集合抽象为一文档,并根据进销商品的价格排列商品在该文档中的位置;然后利用商品在文档中的上下文商品信息训练得到各商品对应的最终语义向量;3)基于商品的最终语义向量,计算同一纳税人的进销商品集合的匹配度。一种虚开发票风险发现方法,其步骤包括:1)对进销商品的商品名称进行规范化;2)将同一纳税人的进销商品集合中的每一商品名称抽象为一单词,从而将该纳税人的进销商品集合抽象为一文档,并根据进销商品的价格排列商品在该文档中的位置;然后利用商品在文档中的上下文商品信息训练得到各商品对应的最终语义向量;3)基于商品的最终语义向量,计算同一纳税人的进销商品集合的匹配度;根据所述匹配度判断对应纳税人的虚开发票风险。进一步的,所述步骤3)中,计算同一纳税人的进销商品集合的匹配度的方法为:获取该纳税人的销项商品集合,计算该销项商品集合中每个销项商品是否有与其相关的进项商品及二者之间的匹配度,然后根据销项商品的金额来表示所述销项商品集合中对应销项商品的权重,然后通过加权求和的方式计算该纳税人的进销商品集合的匹配度。进一步的,基于各商品对应的最终语义向量计算该销项商品集合中每个销项商品和该纳税人的进项商品集合中每个进项商品的相似度,然后选择与每个销项商品最相似的进项商品;然后通过公式计算每个销项商品j与其最相似进项商品i的匹配度scorej;然后通过公式计算该纳税人的进销商品集合的匹配度;其中,scorej为销项商品j的进销匹配度,simi,j为与销项商品j最相似的进项商品i的语义相似度,sim_threshold为用户指定的相似度阈值,profit_rate为用户指定的商品的可以接受的利润率,mj为销项商品j的销售金额,mi为与销项商品最相似的进项i的购进金额;score为整体进销商品集合匹配度,summ所有销项商品金额的总和。进一步的,所述步骤1)中,利用Word2Vec模型将规范化后的各商品名称映射到向量空间,得到对应商品的初始语义向量。进一步的,所述步骤2)中,训练得到各商品对应的最终语义向量的方法为:将每一文档作为一训练数据,基于各训练数据采用CBOW方法对Word2Vec模型进行训练,得到各商品对应的最终语义向量。进一步的,采用CBOW方法对Word2Vec模型进行训练,每次训练更新商品对应的语义向量,其方法为:选定文档中的一个单词作为目标单词进行预测,该单词上下文的单词作为Word2Vec模型的输入数据,每个单词到Word2Vec模型的隐藏层有一个连接权重向量,输入数据在隐藏层汇总以后在输出层采用Softmax预测输出每个单词的概率,然后计算预测输出结果与设定的对应期望值之间的误差,通过反向传播的方法将误差信息向输入方向传播,更新该目标单词的语义向量,即目标商品的语义向量。进一步的,输入层通过一个V×N维的权重矩阵W来连接隐藏层,隐藏层通过一个N×V的权重矩阵W′来连接到输出层;初始时矩阵W和W′均随机初始化,输入数据通过Word2Vev模型得到输出层的预测输出,利用交叉熵作为损失函数来计算输出的误差损失,然后通过反向传播来逐步调整权重矩阵W和W′,采用W矩阵中每个商品与隐藏层的连接权重作为商品的语义向量表示;其中,N为隐藏层的节点数量,V为输入层词汇表的维度。进一步的,所述步骤2)中,训练得到各商品对应的最终语义向量的方法为:将每一文档作为一训练数据,基于各训练数据采用Skip-Gram方法对Word2Vec模型进行训练,得到各商品对应的最终语义向量。本专利技术整体构成模块分为4部分,如图1所示,包括:第一部分101:对进销商品的商品名称进行规范化。规范化的目的是通过去除掉商品名称的修饰词、连接词、特殊符号等,使得相同的商品具有同一个名称描述,以便于后续进销商品集合的匹配度计算。第二部分102:商品语义向量提取。要计算进销商品集合的匹配度,首先需要计算商品之间的相关性,而单纯基于商品名称很难计算商品之间的相关性。本部分将借鉴自然语言处理领域成熟的提取文档中单词的语义向量的Word2Vec技术来提取商品的语义向量(每一单词对应一商品,单词的语义向量即为商品的语义向量)。将纳税人的进销商品集合抽象为文档,将商品名称抽象为单词,并根据进销商品的价格来排列商品在文档中的位置。Word2Vec模型会将每个商品映射到向量空间中,用一个N维向量(即商品的语义向量)进行表示,利用商品在文档中的上下文商品来预测当前位置应该出现的商品,通过优化算法,不断改变每个商品的向量表示,来优化预测的准确率,从而学习到商品在向量空间中的语义表示,使得在向量空间中具有相似上下文的商品具有相近的距离。从而可以根据商品在向量空间中的位置来衡量商品的相似度,在向量空间中距离近的商品相似度高。本专利技术中商品的语义向量在Word2Vev模型训练之前是随机生成的,并不具有语义信息,在模型训练过程中,本文档来自技高网...

【技术保护点】
1.一种进销商品匹配度计算方法,其步骤包括:/n1)对进销商品的商品名称进行规范化;/n2)将同一纳税人的进销商品集合中的每一商品名称抽象为一单词,从而将该纳税人的进销商品集合抽象为一文档,并根据进销商品的价格排列商品在该文档中的位置;然后利用商品在文档中的上下文商品信息训练得到各商品对应的最终语义向量;/n3)基于商品的最终语义向量,计算同一纳税人的进销商品集合的匹配度。/n

【技术特征摘要】
1.一种进销商品匹配度计算方法,其步骤包括:
1)对进销商品的商品名称进行规范化;
2)将同一纳税人的进销商品集合中的每一商品名称抽象为一单词,从而将该纳税人的进销商品集合抽象为一文档,并根据进销商品的价格排列商品在该文档中的位置;然后利用商品在文档中的上下文商品信息训练得到各商品对应的最终语义向量;
3)基于商品的最终语义向量,计算同一纳税人的进销商品集合的匹配度。


2.一种虚开发票风险发现方法,其步骤包括:
1)对进销商品的商品名称进行规范化;
2)将同一纳税人的进销商品集合中的每一商品名称抽象为一单词,从而将该纳税人的进销商品集合抽象为一文档,并根据进销商品的价格排列商品在该文档中的位置;然后利用商品在文档中的上下文商品信息训练得到各商品对应的最终语义向量;
3)基于商品的最终语义向量,计算同一纳税人的进销商品集合的匹配度;根据所述匹配度判断对应纳税人的虚开发票风险。


3.如权利要求1或2所述的方法,其特征在于,所述步骤3)中,计算同一纳税人的进销商品集合的匹配度的方法为:获取该纳税人的销项商品集合,计算该销项商品集合中每个销项商品是否有与其相关的进项商品及二者之间的匹配度,然后根据销项商品的金额来表示所述销项商品集合中对应销项商品的权重,然后通过加权求和的方式计算该纳税人的进销商品集合的匹配度。


4.如权利要求3所述的方法,其特征在于,基于各商品对应的最终语义向量计算该销项商品集合中每个销项商品和该纳税人的进项商品集合中每个进项商品的相似度,然后选择与每个销项商品最相似的进项商品;然后通过公式计算每个销项商品j与其最相似进项商品i的匹配度scorej;然后通过公式计算该纳税人的进销商品集合的匹配度;其中,scorej为销项商品j的进销匹配度,simi,j为与销项商品j最相似的进项商品i的语义相似度,sim_threshold为用户指定的相似度阈值,profit_rate为用户指定的商品的可以接受的利润率,mj为销项商品j的...

【专利技术属性】
技术研发人员:刘宗前王彦游立明韩佶兴
申请(专利权)人:中国软件与技术服务股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1