一种面向发票虚开检测的跨介区域可解释推理路径生成方法技术

技术编号：36688360 阅读：18 留言：0更新日期：2023-02-27 19:53

本发明专利技术公开了一种面向发票虚开检测的跨介区域可解释推理路径生成方法，包括步骤：首先，针对深度学习的可解释性，拟提出一种主客观结合的可解释性度量方法，包含四个指标，在此之上提出一种基于帕累托效率的推理路径选择排序算法，将碎片路径排列选择问题转换为多目标优化问题，通过调整不同目标的边界，选择多目标均衡的最优推理路径，形成证据链，实现模型的可解释性。模型的可解释性。模型的可解释性。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向发票虚开检测的跨介区域可解释推理路径生成方法

[0001]本专利技术属于人工智能与税控
，具体涉及一种面向发票虚开检测的跨介区域可解释推理路径生成方法。

技术介绍

[0002]发票虚开指不如实开具发票的一种舞弊行为，纳税单位和个人为了达到偷税的目的，在商品名称、数量名称、商品单价以及金额上采取弄虚作假的手段，甚至利用比较熟悉的关系，虚构交易事项虚开发票。发票虚开一直是税收治理的毒瘤和顽疾，平均每年造成约1.1万亿巨额税款流失。因此发票虚开检测对税收风险管理至关重要。同时税务数据庞杂、高维海量，涉及19个税种89个行业，每年开具约600亿张发票。近年来，深度学习技术成功运用于税控领域，如偷漏税检测、行业分类、企业行为异常检测等，早期模型虽取得了良好效果，但端到端的智能学习模型尚未实现检测过程和结果的可解释性，导致结果质疑多、求证难度大，仍需大量人力物力进行稽查核实，引起人们对算法可信性、公平性产生质疑，甚至造成法律相关问题，成为了将深度学习在税控领域大规模应用的瓶颈问题。因此现阶段提出将介科学的相关理论融入模型，其中介科学是一种复杂系统分析方法，能够从具有时空多尺度动态结构的数据系统中发现介区域，从而对复杂系统进行合理分解，有助于建立可解释学习模型。在税控场景中结合领域知识辨识复杂数据系统的时空多层次，识别不同层次中的介区域。例如，发票虚开检测需挖掘“发票
‑
企业”、“企业
‑
团伙”等层次中的介区域，并将介科学复杂系统建模理论和符号系统的可理解易编辑特性有机结合，其中符...

【技术保护点】

【技术特征摘要】
1.一种面向发票虚开检测的跨介区域可解释推理路径生成方法，其特征在于，包括以下步骤：1)在介区域中得到税务数据候选集即路径节点的基础上，根据介区域中路径节点特征设计出可解释度量方法；2)根据税务知识及可解释度量方法，设计出可解释性损失函数，在此之上实现满足精准度约束和时效性约束的条件下最大化路径的可解释性的推理路径选择学习算法；3)通过上一步的可解释性的推理路径选择学习算法枚举所有可能推理路径来寻找满足帕累托最优的推理路径；4)在满足帕累托最优的推理路径中选择出最优的推理路径。2.根据权利要求1所述的一种面向发票虚开检测的跨介区域可解释推理路径生成方法，其特征在于，步骤1)的具体实现方法如下：基于介科学理论，将多层次多尺度动态时空关联的税务数据系统划分成了若干介区域，形成分层递阶结构；针对介区域后税务数据的特点，以及为了方便形成证据链，现介区域内税务数据由一阶谓词逻辑的方式表示；step101.逻辑替换指数σ：衡量模型推理步骤与外部税务知识的耦合程度，为了衡量推理步骤与外部知识的耦合程度，基于BLEU算法的耦合程度评价算法，具体公式如下：其中推理步骤表示为外部税务知识表示为外部税务知识表示为表示第k个n
‑
gram在中出现的次数，表示第k个n
‑
gram在中出现的次数；step102.符号可解释性e
i
表示介区域内包含规则的可理解性，通过人工赋值的方式制定符号可解释性字典，对符号中蕴含的逻辑规则进行量化，即e
i
＝{(s
i
,v
i
)|(s
i
,v
i
)∈dict(s,v)}，其中，s表示符号，v表示对该符号可解释性的人工赋值；step103.符号间的相关性r
ij
算法表述为：模型较高层layer
k
得分存在符号i和j，且所在介区域是连续的，则表示从符号j到符号i的且在介区域m和n之间传播的置信度，其中n＝m+1，传播规则为：其中α
‑
β＝1,β≥0，j表示符号k所在层的前一层的符号之一；step104.推理路径长度d在推理过程中，从输入到输出可能存在多条推理路径，推理路径长度d可定义为推理行为经过符号间路径数目之和，即：d＝∑w
ij
。3.根据权利要求2所述的一种面向发票虚开检测的跨介区域可解释推理路径生成方
法，其特征在于，σ取值越高，说明可被理解的程度越高。4.根据权利要求2所述的一种面向发票虚开检测的跨介区域可解释推理路径生成方法，其特征在于，路径长度越小，涉及的规则越少，可解释性就越高。5.根据权利要求2所述的一种面向发票虚开检测的跨介区域可解释推理路径生成方法，其特征在于，步骤2)的具体实现方法如下：Step201.构造解释性度量损失函数根据step1定义的四种度量指标，将模型的可解释性度量可定义为：其中ε是人能理解的逻辑值，用以表示模型的可解释性，将可解释性的损失函数定义为如下形式：Step202.构造精准度损失函数模型的输出形式为“符号
”→“
符号”的序列形式，精准度的损失函数是基于Levenshtein距离构建的，假设模型输出推理...

【专利技术属性】
技术研发人员：郑庆华，师斌，赵子涵，武乐飞，董博，赵锐，张浩堃，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人