一种面向发票虚开检测的跨介区域可解释推理路径生成方法技术

技术编号:36688360 阅读:18 留言:0更新日期:2023-02-27 19:53
本发明专利技术公开了一种面向发票虚开检测的跨介区域可解释推理路径生成方法,包括步骤:首先,针对深度学习的可解释性,拟提出一种主客观结合的可解释性度量方法,包含四个指标,在此之上提出一种基于帕累托效率的推理路径选择排序算法,将碎片路径排列选择问题转换为多目标优化问题,通过调整不同目标的边界,选择多目标均衡的最优推理路径,形成证据链,实现模型的可解释性。模型的可解释性。模型的可解释性。

【技术实现步骤摘要】
一种面向发票虚开检测的跨介区域可解释推理路径生成方法


[0001]本专利技术属于人工智能与税控
,具体涉及一种面向发票虚开检测的跨介区域可解释推理路径生成方法。

技术介绍

[0002]发票虚开指不如实开具发票的一种舞弊行为,纳税单位和个人为了达到偷税的目的,在商品名称、数量名称、商品单价以及金额上采取弄虚作假的手段,甚至利用比较熟悉的关系,虚构交易事项虚开发票。发票虚开一直是税收治理的毒瘤和顽疾,平均每年造成约1.1万亿巨额税款流失。因此发票虚开检测对税收风险管理至关重要。同时税务数据庞杂、高维海量,涉及19个税种89个行业,每年开具约600亿张发票。近年来,深度学习技术成功运用于税控领域,如偷漏税检测、行业分类、企业行为异常检测等,早期模型虽取得了良好效果,但端到端的智能学习模型尚未实现检测过程和结果的可解释性,导致结果质疑多、求证难度大,仍需大量人力物力进行稽查核实,引起人们对算法可信性、公平性产生质疑,甚至造成法律相关问题,成为了将深度学习在税控领域大规模应用的瓶颈问题。因此现阶段提出将介科学的相关理论融入模型,其中介科学是一种复杂系统分析方法,能够从具有时空多尺度动态结构的数据系统中发现介区域,从而对复杂系统进行合理分解,有助于建立可解释学习模型。在税控场景中结合领域知识辨识复杂数据系统的时空多层次,识别不同层次中的介区域。例如,发票虚开检测需挖掘“发票

企业”、“企业

团伙”等层次中的介区域,并将介科学复杂系统建模理论和符号系统的可理解易编辑特性有机结合,其中符号的含义为物理学或社会学相关知识,形式包括原子公式和原子公式之间的操作符两种;对介区域中的符号化控制机制构建问题,实现分而治之;生成了碎片化推理路径,但现阶段并没有方法能够很好地将介区域内部发票虚开的推理路径拼接成一个具备可解释性、精确性和时效性的完整跨介区域推理路径。
[0003]针对这一难题,以下文献提供了可参考的发票虚开可解释路径生成提出相应的解决方案:
[0004]文献1:一种面向可解释的情感溯源方法(202110743688.2)
[0005]文献2:一种基于知识图谱的循环开票风险识别方法(202010715798.3);
[0006]文献3:一种基于动态网络表征的发票虚开识别方法(CN201911066791.7);
[0007]文献4:一种基于NSGA

II的车辆安全性多目标优化方法(202110814834.6);
[0008]文献1首次提出了情感溯源的概念,情感溯源指的是对情感分析过程找到完整的推理链路;在实际操作方面,此专利使用人工标注的方式生成数据集,训练过程中,将每条路径向量化输入到线性层和softmax归一化后得到每条情感溯源路径的评分,选最高评分路径作为最终可解释情感溯源路径。
[0009]文献2提出了一种基于知识图谱的循环开票风险识别方法。该基于知识图谱的循环开票风险识别方法,从循环开票交易关系入手,以知识图谱技术为基础,构建纳税人交易关系主干网络;采用图算法搜索异常交易关系,揭示发票虚开风险;在识别循环开票纳税人
的基础上,结合纳税人的属性信息,发现实体关联关系,识别虚开发票团伙。
[0010]文献3基于动态网表征的发票虚开识别方法。首先以企业为节点,交易记录为边,将企业信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为 30时许窗口,通过移动时许窗口得到动态的网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解成独立子函数,提高模型的学习效率;最后基于LightBGM构建分类器识别出发票虚开的企业。
[0011]文献4提出了一种基于NSGA

II的车辆安全性多目标优化方法,首先确定车辆物理参数的范围和缺省值;建立多目标优化模型,包括:建立车辆物理参数选取模型;根据不同参数的取值范围进行均值化处理,建立车辆物理参数配置差异模型;根据将车辆物理参数配置到汽车仿真模拟器中返回的避障相关数据,建立车辆避障效果模型;使用 NSGA

II算法对多目标优化模型进行求解。通过设置多目标优化模型,减少搜索空间,较短时间内得出帕累托最优解集。
[0012]上述传统方法虽然可以解决特定的可解释问题和优化问题,但是很难直接拓展至发票虚开场景复杂动态系统的推理路径生成上,原因在现有解释方法的处理性能及普适性较弱,研究对象具有规模偏小、边界清晰、目标单一的前置条件,和本项目所要求的复杂数据系统差异很大,难以适用且现有可解释性度量方法存在主观偏见问题。同时发票虚开场景下的复杂数据系统具有数据庞杂、高维海量的特点,我国当前纳税企业5000余万户,涉及19个税种89个行业,每年开具约600亿张发票。
[0013]文献1是仅使用人工标注的方式生成训练集来训练情感溯源路径评分模型,判断哪个路径可解释性最佳,仅采用人工标注的方法难免会存在主观偏见问题,可解释性是客观诠释与主观理解能力之间的交集。现阶段可解释性评估的核心指标包括:似然性 (plausibility)和忠实性(faithfulness)。文献2主要面向循环开票风险建模,应用面小,不能应对复杂的税务场景,同时使用深度优先算法寻找有向图中的闭环会导致搜寻速度较慢,搜索空间越大问题越明显;文献3虽能考虑到不同时间段的交易网络特征以提高检测率,但与文献2一样存在结果可解释性弱的缺陷,这样就会导致对发票虚开检测结果质疑多、求证难度大,仍需大量人力物力进行稽查核实,由此影响了发票虚开检测的效率和覆盖范围,影响了结果的可信性、公信力和执行力。文献4所采用的NSGA

II对于低维多目标优化问题效果是不错的,但是对于高维多目标优化问题,其首先面对的便是由于其基于 Pareto支配关系所导致的选择压力过小的问题,其次,便是拥挤距离在高维空间不适用,计算复杂度也比较高;文献4所使用的算法均属启发式搜索,但启发式搜索并不能保证帕累托有效性,它只能保证得到的解不被对方支配(但仍然可以被帕累托有效解支配)。

技术实现思路

[0014]本专利技术旨在提供一种面向发票虚开检测的跨介区域可解释推理路径生成方法,首先该方法基于介科学理论的复杂系统分析方法,在税务数据系统划分为若干介区域基础上,构建针对于介区域间及介区域内的税务数据的可解释度量方案;然后设计发票虚开的可解释损失函数,之后基于帕累托效率的推理路径选择排序算法生成推理路径,将碎片路径排列选择问题转换为多目标优化问题,通过调整不同目标的边界,选择多目标均衡的最优推理路径,形成证据链,实现模型的可解释性。
[0015]本专利技术采用如下技术方案来实现的:
[0016]一种面向发票虚开检测的跨介区域可解释推理路径生成方法,包括以下步骤:
[0017]首先,在介区域中得到候选集即路径节点的基础上,根据介区域路径节点特征设计出可解释度量方法;然后根据可解释度量方法,设计出可解释性损失函数,在此之上实现满足精准度约束和时效性约束本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向发票虚开检测的跨介区域可解释推理路径生成方法,其特征在于,包括以下步骤:1)在介区域中得到税务数据候选集即路径节点的基础上,根据介区域中路径节点特征设计出可解释度量方法;2)根据税务知识及可解释度量方法,设计出可解释性损失函数,在此之上实现满足精准度约束和时效性约束的条件下最大化路径的可解释性的推理路径选择学习算法;3)通过上一步的可解释性的推理路径选择学习算法枚举所有可能推理路径来寻找满足帕累托最优的推理路径;4)在满足帕累托最优的推理路径中选择出最优的推理路径。2.根据权利要求1所述的一种面向发票虚开检测的跨介区域可解释推理路径生成方法,其特征在于,步骤1)的具体实现方法如下:基于介科学理论,将多层次多尺度动态时空关联的税务数据系统划分成了若干介区域,形成分层递阶结构;针对介区域后税务数据的特点,以及为了方便形成证据链,现介区域内税务数据由一阶谓词逻辑的方式表示;step101.逻辑替换指数σ:衡量模型推理步骤与外部税务知识的耦合程度,为了衡量推理步骤与外部知识的耦合程度,基于BLEU算法的耦合程度评价算法,具体公式如下:其中推理步骤表示为外部税务知识表示为外部税务知识表示为表示第k个n

gram在中出现的次数,表示第k个n

gram在中出现的次数;step102.符号可解释性e
i
表示介区域内包含规则的可理解性,通过人工赋值的方式制定符号可解释性字典,对符号中蕴含的逻辑规则进行量化,即e
i
={(s
i
,v
i
)|(s
i
,v
i
)∈dict(s,v)},其中,s表示符号,v表示对该符号可解释性的人工赋值;step103.符号间的相关性r
ij
算法表述为:模型较高层layer
k
得分存在符号i和j,且所在介区域是连续的,则表示从符号j到符号i的且在介区域m和n之间传播的置信度,其中n=m+1,传播规则为:其中α

β=1,β≥0,j表示符号k所在层的前一层的符号之一;step104.推理路径长度d在推理过程中,从输入到输出可能存在多条推理路径,推理路径长度d可定义为推理行为经过符号间路径数目之和,即:d=∑w
ij
。3.根据权利要求2所述的一种面向发票虚开检测的跨介区域可解释推理路径生成方
法,其特征在于,σ取值越高,说明可被理解的程度越高。4.根据权利要求2所述的一种面向发票虚开检测的跨介区域可解释推理路径生成方法,其特征在于,路径长度越小,涉及的规则越少,可解释性就越高。5.根据权利要求2所述的一种面向发票虚开检测的跨介区域可解释推理路径生成方法,其特征在于,步骤2)的具体实现方法如下:Step201.构造解释性度量损失函数根据step1定义的四种度量指标,将模型的可解释性度量可定义为:其中ε是人能理解的逻辑值,用以表示模型的可解释性,将可解释性的损失函数定义为如下形式:Step202.构造精准度损失函数模型的输出形式为“符号
”→“
符号”的序列形式,精准度的损失函数是基于Levenshtein距离构建的,假设模型输出推理...

【专利技术属性】
技术研发人员:郑庆华师斌赵子涵武乐飞董博赵锐张浩堃
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1