一种识别虚开发票企业的方法、装置及设备制造方法及图纸

技术编号:20798194 阅读:27 留言:0更新日期:2019-04-06 11:50
本发明专利技术公开了一种识别虚开发票企业的方法,能获取待识别企业的特征数据,然后将特征数据输入预先训练得到的LightGBM模型,以便于该模型计算待识别企业为虚开发票企业的概率值,最后根据概率值判断待识别企业是否为虚开发票企业。可见,由于LightGBM模型是一种基于决策树的机器学习模型,采用最优的leaf‑wise策略分裂叶子节点,因此具备计算精度高计算速度快的特点,而本发明专利技术能够预先对该模型进行训练,使其能计算待识别企业为虚开发票企业的概率,最后根据概率得出识别结果,显著提升了识别的准确度和识别效率。此外,本发明专利技术还提供了一种识别虚开发票企业的装置、设备及计算机可读存储介质,其作用与上述方法相对应。

A Method, Device and Equipment for Identifying Virtual Invoice Enterprises

The invention discloses a method for identifying a virtual invoice enterprise, which can obtain the characteristic data of the enterprise to be identified, and then input the characteristic data into the LightGBM model which is trained in advance, so as to calculate the probability value of the enterprise to be identified as a virtual invoice enterprise, and finally judge whether the enterprise to be identified is a virtual invoice enterprise according to the probability value. It can be seen that the LightGBM model is a machine learning model based on decision tree and uses the optimal leaf wise strategy to split the leaf nodes, so it has the characteristics of high calculation accuracy and fast calculation speed. The present invention can train the model in advance, so that it can calculate the probability that the enterprise to be identified is a virtual invoice enterprise. Finally, the recognition result is obtained according to the probability, and the recognition result is significantly improved. Accuracy and efficiency of recognition are achieved. In addition, the invention also provides a device, a device and a computer readable storage medium for identifying a virtual invoice enterprise, whose function corresponds to the above method.

【技术实现步骤摘要】
一种识别虚开发票企业的方法、装置及设备
本专利技术涉及金融科技领域,特别涉及一种识别虚开发票企业的方法、装置、设备及计算机可读存储介质。
技术介绍
虚开发票,是指纳税单位或个人为了达到偷税的目的,或购货单位为了满足某种需要,在商品交易过程中开具发票时,在商品名称、商品数量、商品单价或金额采取弄虚作假的手法,虚构交易事项等行为。目前,虚开发票是我国一种严重且普遍的经济犯罪行为,其行为侵蚀增值税税基,扰乱市场秩序,危害极大。国家及地方税务稽查部门对虚开发票这一问题还没有比较好的解决方法和措施,目前主要通过人工根据以往的业务经验来识别一个企业是否为虚开发票的企业,由于这个过程需要耗费大量的时间和人力,因此识别效率非常低,此外,由于判断一个企业是否虚开发票的条件复杂而隐晦,因此识别准确率也不理想。
技术实现思路
本专利技术的目的是提供一种识别虚开发票企业的方法、装置、设备及计算机可读存储介质,用以解决通过人工识别企业是否为虚开发票的企业的识别效率和识别准确率均较低的问题。为解决上述技术问题,本专利技术提供了一种识别虚开发票企业的方法,包括:获取待识别企业的特征数据;将所述特征数据输入预先训练得到的LightGBM模型,以便于所述LightGBM模型根据所述特征数据计算所述待识别企业为虚开发票企业的概率值;根据所述概率值判断所述待识别企业是否为虚开发票企业。可选的,所述LightGBM模型的训练过程为:预先选取多个企业特征;利用决策树方法计算各个所述企业特征的重要程度,并筛选出重要程度最高的预设数量的目标企业特征;将所述目标企业特征输入所述LightGBM模型,并利用交叉验证法对所述LightGBM模型进行训练。可选的,所述利用交叉验证法对所述LightGBM模型进行训练,具体包括:利用交叉验证法对所述LightGBM模型进行训练,确定各个所述目标企业特征的权重。可选的,所述利用交叉验证法对所述LightGBM模型进行训练,具体包括:从税局数据库分别获取合法纳税企业以及虚开发票企业的样本;将所述样本按照预设比例划分为训练样本和测试样本;根据所述训练样本和所述测试样本对所述LightGBM模型进行训练。可选的,所述获取待识别企业的特征数据,具体包括:获取待识别企业的预设时间粒度的特征数据,其中,所述特征数据的预设时间粒度为预先通过训练LightGBM模型确定的。可选的,在所述根据所述概率值判断所述待识别企业是否为虚开发票企业之后,还包括:对判定为虚开发票企业的企业进行验证,得到验证结果;根据所述验证结果,对所述LightGBM模型的参数进行调整。相应的,本专利技术还提供了一种识别虚开发票企业的装置,包括:特征数据获取模块:用于获取待识别企业的特征数据;数据输入模块:用于将所述特征数据输入预先训练得到的LightGBM模型,以便于所述LightGBM模型根据所述特征数据计算所述待识别企业为虚开发票企业的概率值;识别模块:用于根据所述概率值判断所述待识别企业是否为虚开发票企业。可选的,所述特征数据获取模块具体用于:获取待识别企业的预设时间粒度的特征数据,其中,所述特征数据的预设时间粒度为预先通过训练LightGBM模型确定的。此外,本专利技术还提供了一种识别虚开发票企业的设备,包括:存储器:用于存储计算机程序;处理器:用于执行所述计算机程序,以实现如上所述的一种识别虚开发票企业的方法的步骤。最后,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的一种识别虚开发票企业的方法的步骤。本专利技术所提供的一种识别虚开发票企业的方法,能够获取待识别企业的特征数据,然后将特征数据输入预先训练得到的LightGBM模型,以便于该模型根据特征数据计算待识别企业为虚开发票企业的概率值,最后根据概率值判断待识别企业是否为虚开发票企业。可见,由于LightGBM模型是一种基于决策树算法的机器学习模型,采用最优的leaf-wise策略分裂叶子节点,因此具备计算精度高计算速度快的特点,而本专利技术能够预先对LightGBM模型进行训练,使其能够计算待识别企业为虚开发票企业的概率,最后根据概率值得出识别结果,显著提升了识别的准确度和识别效率。此外,本专利技术还提供了一种识别虚开发票企业的装置、设备及计算机可读存储介质,其作用与上述方法相对应,这里不再赘述。附图说明为了更清楚的说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术所提供的一种识别虚开发票企业的方法实施例一的实现流程图;图2为本专利技术所提供的一种识别虚开发票企业的方法实施例二中训练模型的流程示意图;图3为本专利技术所提供的一种识别虚开发票企业的方法实施例二中利用模型进行识别的流程示意图;图4为本专利技术所提供的一种识别虚开发票企业的装置实施例的功能框图;图5为本专利技术所提供的一种识别虚开发票企业的设备实施例的结构框图。具体实施方式本专利技术的核心是提供一种识别虚开发票企业的方法、装置、设备及计算机可读存储介质,避免了人工识别费时费力的问题,显著提升了识别的准确度和识别效率。为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面对本专利技术提供的一种识别虚开发票企业的方法实施例一进行介绍,参见图1,实施例一包括:步骤S101:获取待识别企业的特征数据。本实施例中将需要进行判别的企业称为待识别企业,这里的判别主要是指判断一个或多个企业是否为虚开发票的企业。上述特征数据是指与企业是否虚开发票相关联的特征,例如,顶额发票占比、异地发票占比、待识别企业的行业领域等等。显然,即便一个企业具体以上特征,也不能直接得出该企业为虚开发票企业的结论,只能说明该企业为虚开发票企业的可能性较高。需要说明的是,步骤S101具体获取多少种特征数据,以及这些特征数据分别为哪种特征数据,均需要根据下文提到的LightGBM模型来确定。步骤S102:将所述特征数据输入预先训练得到的LightGBM模型,以便于所述LightGBM模型根据所述特征数据计算所述待识别企业为虚开发票企业的概率值。上述LightGBM模型(全称LightGradientBoostingMachine)是一种快速的、分布式的、高性能的、基于决策树算法的梯度提升框架,可用于排序、分类、回归等多项机器学习任务中。因为该模型基于决策树算法的,采用了最优的leaf-wise策略分裂叶子节点,因此当增长到相同的叶子节点,LightGBM模型能够实现更高的精度,且计算速度非常快。具体的,在训练LightGBM模型的之前,需要获取训练样本,为保证训练样本的真实性和可靠性,作为一种可选的实施方式,可以从税局获取虚开发票企业的原始企业数据,并获取正常纳税企业的原始企业数据。然后,从这些原始企业数据中抽取出可能与本文档来自技高网
...

【技术保护点】
1.一种识别虚开发票企业的方法,其特征在于,包括:获取待识别企业的特征数据;将所述特征数据输入预先训练得到的LightGBM模型,以便于所述LightGBM模型根据所述特征数据计算所述待识别企业为虚开发票企业的概率值;根据所述概率值判断所述待识别企业是否为虚开发票企业。

【技术特征摘要】
1.一种识别虚开发票企业的方法,其特征在于,包括:获取待识别企业的特征数据;将所述特征数据输入预先训练得到的LightGBM模型,以便于所述LightGBM模型根据所述特征数据计算所述待识别企业为虚开发票企业的概率值;根据所述概率值判断所述待识别企业是否为虚开发票企业。2.如权利要求1所述的方法,其特征在于,所述LightGBM模型的训练过程为:预先选取多个企业特征;利用决策树方法计算各个所述企业特征的重要程度,并筛选出重要程度最高的预设数量的目标企业特征;将所述目标企业特征输入所述LightGBM模型,并利用交叉验证法对所述LightGBM模型进行训练。3.如权利要求2所述的方法,其特征在于,所述利用交叉验证法对所述LightGBM模型进行训练,具体包括:利用交叉验证法对所述LightGBM模型进行训练,确定各个所述目标企业特征的权重。4.如权利要求2所述的方法,其特征在于,所述利用交叉验证法对所述LightGBM模型进行训练,具体包括:从税局数据库分别获取合法纳税企业以及虚开发票企业的样本;将所述样本按照预设比例划分为训练样本和测试样本;根据所述训练样本和所述测试样本对所述LightGBM模型进行训练。5.如权利要求1-4任意一项所述的方法,其特征在于,所述获取待识别企业的特征数据,具体包括:获取待识别企业的预设时间粒度的特征数据,其中...

【专利技术属性】
技术研发人员:祁海洋史源源王培勇张帆
申请(专利权)人:税友软件集团股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1