一种基于语义分析的发票虚开识别方法及系统技术方案

技术编号:27978251 阅读:55 留言:0更新日期:2021-04-06 14:13
本发明专利技术提供一种基于语义分析的发票虚开识别方法及系统,属于发票识别技术领域,本发明专利技术通过分析纳税人开具发票的商品与登记信息中经营范围是否一致、开票品目是否频繁超出营业执照经营范围,实现潜在虚开风险纳税人的识别,为税源管理部门提供重点关注纳税人清册,防范违规使用发票的风险发生。

【技术实现步骤摘要】
一种基于语义分析的发票虚开识别方法及系统
本专利技术涉及发票识别技术,尤其涉及一种基于语义分析的发票虚开识别方法及系统。
技术介绍
自2015年以来,税控系统升级版的推行以及商品编码等技术有段的应用,发票虚开案件呈爆发式增长,但这一犯罪行为仍屡禁不止,除了发票虚开背后的超额利益驱动外,缺乏强力有效的技术监管手段也是虚开案件频发的重要原因之一。对于发票虚开识别问题,传统的方法是基于业务专家的理解构建风险指标模型,但专家模型不能快速适应目标群体变化,需要积累新的经验来修正模型,容易出现滞后的情况。在当前税务系统大力推进税收现代化的大背景下,利用现代信息技术手段解决发票虚开问题显得尤为必要。当前,已有税务机关引入机器学习技术,从企业的进销项方面探索发票虚开行为的识别,但由于企业购进和开具发票的开票方式不同,天然存在匹配偏差,特别是生产制造企业,其进销项并不能完全匹配,影响发票虚开行为的识别效果。
技术实现思路
为了解决以上技术问题,本专利技术提供了一种基于语义分析的发票虚开识别方法,通过分析纳税人开具发票的商品与登记信息中经营范围是否一致、开票品目是否频繁超出营业执照经营范围,实现潜在虚开风险纳税人的识别,为税源管理部门提供重点关注纳税人清册,防范违规使用发票的风险发生。本专利技术通过分析纳税人开具发票的商品与登记信息中经营范围是否一致、开票品目是否频繁超出营业执照经营范围,实现潜在虚开风险纳税人的识别,为税源管理部门提供重点关注纳税人清册,防范违规使用发票的风险发生。本专利技术的技术方案是:一种基于语义分析的发票虚开识别方法,具体步骤如下:1)、提取设定经营周期的企业开具发票的明细数据,和纳税人的经营范围数据;2)、对发票的商品名称和纳税人的经营范围进行文本处理;3)、将发票的商品名称进行归集,对没有商品编码的商品名称进行填充,对错误的商品编码进行纠正;4)、将纳税人的经营范围和商品编码对应的货物或劳务名称合并构建语料,采用Word2Vec算法将经营范围和商品名称的分词进行向量化,用一个n维向量来表征一个商品名称,方便商品名称与其经营范围的文本匹配的度量;5)、基于修正的商品编码,将同一户纳税人的开票数据整合,合并同商品的金额,构建销项商品集合,并对纳税人的销项商品金额进行归一化处理,即将纳税人销项商品集合中每项商品的金额除以所有商品总金额,将其转化为金额占比,作为该商品与经营范围匹配度的权重;将每个商品与纳税人的每项经营项目进行相似度度量,以最大匹配度作为该项商品与经营范围的匹配度量,以金额占比作为权重,计算出每户纳税人的开具发票的商品与其经营范围的匹配度,作为其风险评分,评分越低风险越高;评分公式如下:其中,sim(C,B)表示纳税人的所有销项商品与其经营范围的匹配度,C为纳税人的开具发票的所有商品集合,B为纳税人的经营范围;采用余弦相似度度量任意一个商品ci与每一项经营项目bk的相似度,取该商品与经营项目最高匹配度作为该商品与经营范围的匹配度;ei表示商品的金额,sum(ei)表示该纳税人开具发票的总金额。6)、根据纳税人的开具发票的商品与其经营范围的匹配度的评分,确定异常开票纳税人。进一步的,所述步骤2)中的文本处理,包括清洗特殊字符、全角转半角、中文字符繁简体转换、英文字符大小写转换、中文分词、剔除停止词。进一步的,风险评分的阈值设置方法,采用3σ准则,以行业或地区为范围,通过转换函数将风险评分转为符合正态分布的评分,以μ-3σ为阈值,低于该评分的纳税人为风险纳税人,生成异常开票纳税人清单。本专利技术还提供了一种基于语义分析的发票虚开识别系统,其包括:数据提取和处理模块、商品编码补充纠正模块、风险评分计算模块和风险纳税人确定模块;其中数据提取和处理模块包含数据提取和数据处理两个单元,数据提取单元提取设定经营周期的企业开具发票的明细数据和纳税人的经营范围数据;数据处理单元是对发票的商品名称和纳税人的经营范围进行文本处理;文本处理,包含清洗特殊字符、全角转半角、中文字符繁简体转换、英文字符大小写转换、中文分词、剔除停止词等。商品编码补充纠正模块是对发票的商品编码进行修正,对商品名称进行归集,对没有商品编码的数据进行填充,对错误的商品编码进行纠正,提升数据质量。风险评分计算模块是用于度量每户纳税人的开具发票商品与其经营范围的匹配度,给出风险评分;基于修正的商品编码,将同一户纳税人的开票数据整合,合并同商品的金额,构建销项商品集合,并对纳税人的开具发票的商品金额进行归一化处理,即将纳税人销项商品集合中每项商品的金额除以所有商品总金额,将其转化为金额占比,作为该商品与经营范围匹配度的权重;风险纳税人确定模块是根据纳税人的开具发票的商品与其经营范围匹配度的评分,确定异常开票纳税人。进一步的,将每个商品与纳税人的每项经营项目进行相似度度量,以最大匹配度作为该项商品与经营范围的匹配度量,以金额占比作为权重,计算出每户纳税人的开具发票的商品与其经营范围的匹配度,作为其风险评分,评分越低风险越高。进一步的,风险评分的阈值设置方法,采用3σ准则,以行业或地区为范围,通过转换函数将风险评分转为符合正态分布的评分,以μ-3σ为阈值,低于该评分的纳税人为风险纳税人,生成异常开票纳税人清单。本专利技术的有益效果是通过语义分析纳税人开具发票的商品与登记信息中经营范围的文本匹配程度,给出每户纳税人风险评分,并自动根据整体评分设置风险阈值,实现潜在虚开风险纳税人的识别,为税源管理部门提供重点关注纳税人清册,有助于提升征管质效,减少税款流失。附图说明图1为本专利技术所述基于语义分析的发票虚开识别方法的流程图;图2为本专利技术所述基于语义分析的发票虚开识别系统的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的工作流程图如图1所示,具体步骤如下:1、提取特定经营周期(如1个自然年)的企业开具发票的明细数据,和纳税人的经营范围数据;2、对发票的商品名称和纳税人的经营范围进行文本处理,包含清洗特殊字符、全角转半角、中文字符繁简体转换、英文字符大小写转换、中文分词、剔除停止词等;3、通过《商品和服务税收分类与编码》和商品名称智能归集算法将发票的商品名称进行归集,对没有商品编码的商品名称进行填充,对错误的商品编码进行纠正,提升数据质量,提高算法准确度;4、将纳税人的经营范围和商品编码对应的货物或劳务名称合并构建语料,采用Word2Vec算法将经营范围和商品名称的分词进行向量化,实现了用一个n维本文档来自技高网...

【技术保护点】
1.一种基于语义分析的发票虚开识别方法,其特征在于,/n具体步骤如下:/n1)、提取设定经营周期的企业开具发票的明细数据,和纳税人的经营范围数据;/n2)、对发票的商品名称和纳税人的经营范围进行文本处理;/n3)、将发票的商品名称进行归集,对没有商品编码的商品名称进行填充,对错误的商品编码进行纠正;/n4)、将纳税人的经营范围和商品编码对应的货物或劳务名称合并构建语料,采用Word2Vec算法将经营范围和商品名称的分词进行向量化,用一个n维向量来表征一个商品名称,方便商品名称与其经营范围的文本匹配的度量;/n5)、基于修正的商品编码,将同一户纳税人的开票数据整合,合并同商品的金额,构建销项商品集合,并对纳税人的销项商品金额进行归一化处理,即将纳税人销项商品集合中每项商品的金额除以所有商品总金额,将其转化为金额占比,作为该商品与经营范围匹配度的权重;/n将每个商品与纳税人的每项经营项目进行相似度度量,以最大匹配度作为该项商品与经营范围的匹配度量,以金额占比作为权重,计算出每户纳税人的开具发票的商品与其经营范围的匹配度,作为其风险评分,评分越低风险越高;/n6)、根据纳税人的开具发票的商品与其经营范围的匹配度的评分,确定异常开票纳税人。/n...

【技术特征摘要】
1.一种基于语义分析的发票虚开识别方法,其特征在于,
具体步骤如下:
1)、提取设定经营周期的企业开具发票的明细数据,和纳税人的经营范围数据;
2)、对发票的商品名称和纳税人的经营范围进行文本处理;
3)、将发票的商品名称进行归集,对没有商品编码的商品名称进行填充,对错误的商品编码进行纠正;
4)、将纳税人的经营范围和商品编码对应的货物或劳务名称合并构建语料,采用Word2Vec算法将经营范围和商品名称的分词进行向量化,用一个n维向量来表征一个商品名称,方便商品名称与其经营范围的文本匹配的度量;
5)、基于修正的商品编码,将同一户纳税人的开票数据整合,合并同商品的金额,构建销项商品集合,并对纳税人的销项商品金额进行归一化处理,即将纳税人销项商品集合中每项商品的金额除以所有商品总金额,将其转化为金额占比,作为该商品与经营范围匹配度的权重;
将每个商品与纳税人的每项经营项目进行相似度度量,以最大匹配度作为该项商品与经营范围的匹配度量,以金额占比作为权重,计算出每户纳税人的开具发票的商品与其经营范围的匹配度,作为其风险评分,评分越低风险越高;
6)、根据纳税人的开具发票的商品与其经营范围的匹配度的评分,确定异常开票纳税人。


2.根据权利要求1所述的方法,其特征在于,
所述步骤2)中的文本处理,包括清洗特殊字符、全角转半角、中文字符繁简体转换、英文字符大小写转换、中文分词、剔除停止词。


3.根据权利要求1所述的方法,其特征在于,
评分公式如下:



其中,sim(C,B)表示纳税人的所有销项商品与其经营范围的匹配度,C为纳税人的开具发票的所有商品集合,B为纳税人的经营范围;采用余弦相似度度量任意一个商品ci与每一项经营项目bk的相似度,取该商品与经营项目最高匹配度作为该商品与经营范围的匹配度;ei表示商品的金额,sum(ei)表示该纳税人开具发票的总金额。


4.根据权利要求1所述的方法,其特征在于,
风险评分的阈值设置方法,...

【专利技术属性】
技术研发人员:张宝玉程林杨培强
申请(专利权)人:山东浪潮商用系统有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1