本发明专利技术特别涉及一种基于知识图谱的循环开票风险识别方法。该基于知识图谱的循环开票风险识别方法,从循环开票交易关系入手,以知识图谱技术为基础,构建纳税人交易关系主干网络;采用图算法搜索异常交易关系,揭示发票虚开风险;在识别循环开票纳税人的基础上,结合纳税人的属性信息,发现实体关联关系,识别虚开发票团伙。该基于知识图谱的循环开票风险识别方法,借鉴知识图谱技术挖掘交易闭环子图,不仅能够发现循环开票纳税人,同时结合纳税人的属性信息和开票信息,还能识别出发票虚开团伙,有助于深挖发票虚开风险,提升税收征管质效。
【技术实现步骤摘要】
一种基于知识图谱的循环开票风险识别方法
本专利技术涉及税收风险管理
,特别涉及一种基于知识图谱的循环开票风险识别方法。
技术介绍
一般来说,商品的交易流向是单向的,依次流经产业链的上游、中游和下游,而鲜少出现交易关系的闭环,即又从产业链下游流向产业链上游,此为异常交易,可能具有潜在的税收风险。虚开增值税专用发票,是指为他人、为自己、让他人为自己、介绍他人虚开增值税专用发票的行为。循环开票是指多户纳税人通过互相串开增值税发票,使交易关系构成有向环形图的特殊情况,往往涉嫌虚开发票风险。针对发票虚开犯罪的行为隐蔽性、手段多样性、组织团伙化等特点,本专利技术提出了一种基于知识图谱的循环开票风险识别方法。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于知识图谱的循环开票风险识别方法。本专利技术是通过如下技术方案实现的:一种基于知识图谱的循环开票风险识别方法,其特征在于:从循环开票交易关系入手,以知识图谱技术为基础,构建纳税人交易关系主干网络;采用图算法搜索异常交易关系,揭示发票虚开风险;在识别循环开票纳税人的基础上,结合纳税人的属性信息,发现实体关联关系,识别虚开发票团伙。该基于知识图谱的循环开票风险识别方法,包括以下步骤:第一步,提取特定经营周期(如1个季度)的增值税发票明细数据,包含增值税专用发票、增值税普通发票和电子发票数据;对提取的增值税发票明细数据进行数据预处理,按发票的购方和销方合并金额,并汇总销方纳税人总金额,计算销方与不同购方交易的金额占比;第二步,利用合并的发票数据,提取增值税发票数据,以纳税人为实体,通过发票的购销方确定交易关系,构建纳税人之间的交易关系知识图谱;第三步,通过深度优先算法寻找有向图中的闭环,即为循环开票的纳税人;第四步,采用网络中心度、循环金额占比和纳税人信用等级指标计算加权风险评分,给出纳税人的循环开票风险得分,从而得到风险纳税人清单。所述第一步中,为了全面获取纳税人信息构建交易关系知识图谱,提取纳税人的登记信息,增值税发票数据和纳税人信用数据,形成纳税人画像;以增值税专用发票、增值税普通发票和电子发票的购方和销方纳税人作为图谱的实体,以购销方交易关系作为图谱关系,构建知识图谱;对知识图谱的数据抽取包括实体属性抽取和关系抽取两部分。所述实体属性抽取信息包括纳税人信息和开票地址信息;其中,纳税人信息包括纳税人识别号、纳税人名称、法定代表人姓名、法定代表人身份证件号码、股东、股东身份证件号码、财务负责人姓名和财务负责人身份证件号码;开票地址信息为销方纳税人的属性信息,包括增值税发票开票机的IP地址和Mac地址。所述关系抽取是指抽取存在购销方交易关系的实体信息;完成构建的知识图谱由一个个非联通的子图组成,各个子图描述的是纳税人之间的交易关系和商品流向,若存在购销方交易关系的实体信息在子图中是闭环关系,则表明纳税人循环开票,为潜在风险纳税人。所述第一步中,对增值税发票明细数据的数据预处理包括对发票数据的清洗、合并处理,以及对纳税人的属性信息的抽取;具体步骤如下:(1)纳税人归集通过纳税人登记信息表中的纳税人名称、纳税人识别号和社会信用代码,对增值税的专用发票、普通发票和电子发票的购销方进行归集修正,将购销方相同的发票数据进行合并,金额合计;(2)计算购销方纳税人的交易金额各占购方和销方纳税人交易总额的比例;(3)设置交易金额阈值和交易占比阈值,筛选主要交易数据为了提高循环开票风险识别的准确度和降低关系网络复杂度,剔除次要交易关系,筛选出购销方的交易金额不低于交易金额阈值,且购方或销方的交易占比不低于交易占比阈值的交易数据;(4)设置投资比例阈值,提取纳税人的属性信息从纳税人的登记信息中提取法人、财务负责人和投资比例超过投资比例阈值,且在投资有效期内的股东信息;(5)从发票数据中提取销方纳税人开具发票的IP地址和Mac地址,去重并剔除IP地址和Mac地址都为空的数据。所述第二步中,采用深度优先算法寻找有向图中的闭环,并保存闭环上的所有节点信息;然后,抽取闭环中循环开票纳税人的属性信息,包含法人、股东、财务负责人、开票机IP地址和Mac地址。所述第四步中,采用找出的闭环中的循环开票纳税人的网络中心度、闭环长度、交易金额、同法人、同股东、同财务负责人、同IP地址和同Mac地址以及纳税人信用等级指标给风险纳税人打分,通过加权方法确定风险纳税人排名。本专利技术的有益效果是:该基于知识图谱的循环开票风险识别方法,借鉴知识图谱技术挖掘交易闭环子图,不仅能够发现循环开票纳税人,同时结合纳税人的属性信息和开票信息,还能识别出发票虚开团伙,有助于深挖发票虚开风险,提升税收征管质效。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图1为本专利技术J省**金属材料有限公司所在的知识图谱示意图。具体实施方式为了使本
的人员更好的理解本专利技术中的技术方案,下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。知识图谱(KnowledgeGraph)能够实现更智能的搜索引擎,并在智能问答、情报分析、反欺诈等应用中发挥重要作用(漆桂林等,2017)。知识图谱通常以<实体A,关系R,实体B>的三元组的形式来表示描述客观世界中的实体、概念、事件、属性以及这些因素之间的联系(周威,2019)。通常情况下,知识图谱是一张巨大的关系网络,网络中的实体用节点表示,关系用节点之间的有向连线表示。知识图谱可视化的结果展现提升了用户的使用体验,能够将知识库中的信息转化为用户更方便理解的方式,用户可以一目了然地了解到他需要的知识,快速解答疑惑;同时提供了更加丰富的信息展示方式,除文字外还有图片、列表等形式,增加了用户交互元素,提升用户体验,引导用户在短时间内获取到更多的知识。对有向图的搜索一般有两种常用方法:深度优先搜索(DFS,DepthFirstSearch)和广度优先搜索(BFS,BreadthFirstSearch)算法(吴鹏等,2017)。深度优先搜索算法类似于树的前序遍历,是树的前序遍历的推广,沿着某一条进路一直搜索下去,直到所有边都搜索完截止。BFS遍历类似于树的按层次遍历的过程,从起点开始对接下来的每一层进行搜索,一层搜索完后转向下一层继续搜索。两种遍历方式的搜索效率与所采用的存储结构直接相关,且时间复杂度相当,区别仅在于本文档来自技高网...
【技术保护点】
1.一种基于知识图谱的循环开票风险识别方法,其特征在于:从循环开票交易关系入手,以知识图谱技术为基础,构建纳税人交易关系主干网络;采用图算法搜索异常交易关系,揭示发票虚开风险;在识别循环开票纳税人的基础上,结合纳税人的属性信息,发现实体关联关系,识别虚开发票团伙。/n
【技术特征摘要】
1.一种基于知识图谱的循环开票风险识别方法,其特征在于:从循环开票交易关系入手,以知识图谱技术为基础,构建纳税人交易关系主干网络;采用图算法搜索异常交易关系,揭示发票虚开风险;在识别循环开票纳税人的基础上,结合纳税人的属性信息,发现实体关联关系,识别虚开发票团伙。
2.根据权利要求1所述的基于知识图谱的循环开票风险识别方法,其特征在于,包括以下步骤:
第一步,提取特定经营周期的增值税发票明细数据,包含增值税专用发票、增值税普通发票和电子发票数据;对提取的增值税发票明细数据进行数据预处理,按发票的购方和销方合并金额,并汇总销方纳税人总金额,计算销方与不同购方交易的金额占比;
第二步,利用合并的发票数据,提取增值税发票数据,以纳税人为实体,通过发票的购销方确定交易关系,构建纳税人之间的交易关系知识图谱;
第三步,通过深度优先算法寻找有向图中的闭环,即为循环开票的纳税人;
第四步,采用网络中心度、循环金额占比和纳税人信用等级指标计算加权风险评分,给出纳税人的循环开票风险得分,从而得到风险纳税人清单。
3.根据权利要求2所述的基于知识图谱的循环开票风险识别方法,其特征在于:所述第一步中,为了全面获取纳税人信息构建交易关系知识图谱,提取纳税人的登记信息,增值税发票数据和纳税人信用数据,形成纳税人画像;以增值税专用发票、增值税普通发票和电子发票的购方和销方纳税人作为图谱的实体,以购销方交易关系作为图谱关系,构建知识图谱;对知识图谱的数据抽取包括实体属性抽取和关系抽取两部分。
4.根据权利要求3所述的基于知识图谱的循环开票风险识别方法,其特征在于:所述实体属性抽取信息包括纳税人信息和开票地址信息;
其中,纳税人信息包括纳税人识别号、纳税人名称、法定代表人姓名、法定代表人身份证件号码、股东、股东身份证件号码、财务负责人姓名和财务负责人身份证件号码;
开票地址信息为销方纳税人的属性信息,包括增值税发票开票机的IP地址和Mac地址。
5.根据权利要求3所述的基于知识图谱的循环开票风险识别方法,...
【专利技术属性】
技术研发人员:王凯,程林,杨培强,
申请(专利权)人:山东浪潮商用系统有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。