The invention discloses a method for identifying a virtual invoice enterprise, which can obtain the characteristic data of the enterprise to be identified, and then input the characteristic data into the LightGBM model which is trained in advance, so as to calculate the probability value of the enterprise to be identified as a virtual invoice enterprise, and finally judge whether the enterprise to be identified is a virtual invoice enterprise according to the probability value. It can be seen that the LightGBM model is a machine learning model based on decision tree and uses the optimal leaf wise strategy to split the leaf nodes, so it has the characteristics of high calculation accuracy and fast calculation speed. The present invention can train the model in advance, so that it can calculate the probability that the enterprise to be identified is a virtual invoice enterprise. Finally, the recognition result is obtained according to the probability, and the recognition result is significantly improved. Accuracy and efficiency of recognition are achieved. In addition, the invention also provides a device, a device and a computer readable storage medium for identifying a virtual invoice enterprise, whose function corresponds to the above method.
【技术实现步骤摘要】
一种识别虚开发票企业的方法、装置及设备
本专利技术涉及金融科技领域,特别涉及一种识别虚开发票企业的方法、装置、设备及计算机可读存储介质。
技术介绍
虚开发票,是指纳税单位或个人为了达到偷税的目的,或购货单位为了满足某种需要,在商品交易过程中开具发票时,在商品名称、商品数量、商品单价或金额采取弄虚作假的手法,虚构交易事项等行为。目前,虚开发票是我国一种严重且普遍的经济犯罪行为,其行为侵蚀增值税税基,扰乱市场秩序,危害极大。国家及地方税务稽查部门对虚开发票这一问题还没有比较好的解决方法和措施,目前主要通过人工根据以往的业务经验来识别一个企业是否为虚开发票的企业,由于这个过程需要耗费大量的时间和人力,因此识别效率非常低,此外,由于判断一个企业是否虚开发票的条件复杂而隐晦,因此识别准确率也不理想。
技术实现思路
本专利技术的目的是提供一种识别虚开发票企业的方法、装置、设备及计算机可读存储介质,用以解决通过人工识别企业是否为虚开发票的企业的识别效率和识别准确率均较低的问题。为解决上述技术问题,本专利技术提供了一种识别虚开发票企业的方法,包括:获取待识别企业的特征数据;将所述特征数据输入预先训练得到的LightGBM模型,以便于所述LightGBM模型根据所述特征数据计算所述待识别企业为虚开发票企业的概率值;根据所述概率值判断所述待识别企业是否为虚开发票企业。可选的,所述LightGBM模型的训练过程为:预先选取多个企业特征;利用决策树方法计算各个所述企业特征的重要程度,并筛选出重要程度最高的预设数量的目标企业特征;将所述目标企业特征输入所述LightGBM模型,并利用交 ...
【技术保护点】
1.一种识别虚开发票企业的方法,其特征在于,包括:获取待识别企业的特征数据;将所述特征数据输入预先训练得到的LightGBM模型,以便于所述LightGBM模型根据所述特征数据计算所述待识别企业为虚开发票企业的概率值;根据所述概率值判断所述待识别企业是否为虚开发票企业。
【技术特征摘要】
1.一种识别虚开发票企业的方法,其特征在于,包括:获取待识别企业的特征数据;将所述特征数据输入预先训练得到的LightGBM模型,以便于所述LightGBM模型根据所述特征数据计算所述待识别企业为虚开发票企业的概率值;根据所述概率值判断所述待识别企业是否为虚开发票企业。2.如权利要求1所述的方法,其特征在于,所述LightGBM模型的训练过程为:预先选取多个企业特征;利用决策树方法计算各个所述企业特征的重要程度,并筛选出重要程度最高的预设数量的目标企业特征;将所述目标企业特征输入所述LightGBM模型,并利用交叉验证法对所述LightGBM模型进行训练。3.如权利要求2所述的方法,其特征在于,所述利用交叉验证法对所述LightGBM模型进行训练,具体包括:利用交叉验证法对所述LightGBM模型进行训练,确定各个所述目标企业特征的权重。4.如权利要求2所述的方法,其特征在于,所述利用交叉验证法对所述LightGBM模型进行训练,具体包括:从税局数据库分别获取合法纳税企业以及虚开发票企业的样本;将所述样本按照预设比例划分为训练样本和测试样本;根据所述训练样本和所述测试样本对所述LightGBM模型进行训练。5.如权利要求1-4任意一项所述的方法,其特征在于,所述获取待识别企业的特征数据,具体包括:获取待识别企业的预设时间粒度的特征数据,其中...
【专利技术属性】
技术研发人员:祁海洋,史源源,王培勇,张帆,
申请(专利权)人:税友软件集团股份有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。