The invention discloses an anomaly detection method for enterprise industry classification, which includes: firstly, extracting text and non-text information to be excavated from taxpayer industry information, and performing feature processing and coding processing; secondly, constructing a deep network structure conforming to the anomaly detection problem of industry classification, and determining the input and output layers of the network according to the characteristic dimension of the data after coding. The number of neurons; thirdly, based on the deep network structure, different training strategies are used to train industry-specific networks and industry-specific networks through cross-validation. Finally, anomaly detection of industry-specific networks is carried out by using the dimensionality reduction characteristics of industry-specific networks and SOS anomaly detection algorithm, and anomaly detection of industry-specific networks is carried out according to the reconfiguration characteristics of industry-specific networks. The invention uses TADM model to do anomaly detection for original data, and can more reasonably and accurately analyze the macro management work of national statistics, taxation, business administration and so on.
【技术实现步骤摘要】
一种面向企业行业分类的异常检测方法
本专利技术属于数据挖掘领域,特别涉及一种基于TADM(Two-levelAnomalyDetectionModel,2层级异常检测模型)的面向企业行业分类的异常检测方法。
技术介绍
改革开放以后,我国国民经济快速发展,市场经济不断繁荣,国家的经济结构逐步完善,企业行业分工也逐渐细化。新时期,研究企业行业分类对于推进财政、税务、国家标准管理起到了基础性的作用,也为进一步分析国民经济行业和产业发展现状,把握国民经济发展趋势提供了依据。由国家质量监督检验检疫总局、国家标准化管理委员会发布的《国民经济行业分类》(GB/T4754-2017)提供了企业经济活动的行业分类与代码,具体包括97个行业大类和1380个行业明细。工商管理部门在企业登记注册时需要根据企业经营范围等信息确定企业所属的国民经济行业分类。然而现有的企业行业分类主要通过人工实现,受限于工作人员的专业知识和经验,当面临海量的企业分类任务时,往往会出现分类错误的情况。错误的企业行业分类会对国家的统计、税收、工商管理等工作产生一系列不良的影响,因此,如何利用计算机程序对企业行业分 ...
【技术保护点】
1.一种面向企业行业分类的异常检测方法,其特征在于,包括:首先,提取纳税人行业信息中待挖掘的文本和非文本信息并进行特征处理和编码处理;其次,构建符合行业分类异常检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用不同的训练策略通过交叉验证分别训练行业大类和行业明细的网络;最后,利用行业大类网络的降维特性融合SOS异常检测算法对行业大类进行异常检测,根据行业明细网络的重构特性对行业明细进行异常检测。
【技术特征摘要】
1.一种面向企业行业分类的异常检测方法,其特征在于,包括:首先,提取纳税人行业信息中待挖掘的文本和非文本信息并进行特征处理和编码处理;其次,构建符合行业分类异常检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用不同的训练策略通过交叉验证分别训练行业大类和行业明细的网络;最后,利用行业大类网络的降维特性融合SOS异常检测算法对行业大类进行异常检测,根据行业明细网络的重构特性对行业明细进行异常检测。2.根据权利要求1所述的一种面向企业行业分类的异常检测方法,其特征在于,具体包括以下实现步骤:1)纳税人文本属性处理分析纳税人行业信息表中的文本信息,提取具有代表性的文本属性,利用提取后的属性进行异常检测;2)非文本属性处理纳税人行业信息的非文本属性包含两部分:数值型属性和类别型属性;使用z-score标准化方法对数值型属性进行处理,使用One-Hot对类别型属性进行编码;3)异常指标生成和分析异常指标生成和分析以深度学习的自编码网络为原型,根据不同层级行业信息包含不同信息粒度的理论,设计出了基于TADM的行业分类异常指标的计算方法;4)异常评估第一层级的行业大类异常指标由TADM网络和SOS异常检测算法得到,该模型最终计算出每一个样本的异常概率,并给出异常概率阈值,所有纳税人特征样本的异常概率与该阈值比较,如果异常概率大于该阈值,判定样本为该行业大类中的异常数据;第二层级的行业明细异常指标由TADM网络重构得到,模型最终计算出每一个样本的重构误差,并给出重构误差阈值,所有行业明细的样本重构误差和该阈值比较,如果重构误差大于该阈值,判定样本为行业明细中的异常数据。3.根据权利要求2所述的一种面向企业行业分类的异常检测方法,其特征在于,步骤1)中,纳税人文本属性处理具体包括以下步骤:Step1.文本信息预处理文本预处理是对纳税人行业信息进行规范化操作,具体的实施包括:(1)删除数据库中字符乱码;(2)删除文本属性中的数字及量词;(3)删除数据库null标识的数据;Step2.基于Ansj分词器进行分词基于国家经济行业分类构建行业分类专业词典以及基于全国省市区县地名大全和四级行政区划地名词库构建停用词词典,根据构建的停用词词典基于Ansj分词器对文本进行分词,建立分词语料库;Step3.构建词向量根据分词语料库中不同类别文本的所占比例,对所有的样本的词赋权重;筛选出权重较大的词,每个语料保留N个权重最大的关键词,利用word2vec工具将N个关键词转成词向量。4.根据权利要求3所述的一种面向企业行业分类的异常检测方法,其特征在于,步骤2)中,纳税人行业信息的非文本属性处理包含两部分:数值型属性处理和类别型属性处理;使用z-score标准化方法对数值型属性进行处理,具体步骤为:Step1.计算各个属性的均值记u=(u1,u2,...,um)为均值向量,其中m表示数值型属性的种类数,ui表示第i个数值型属性的均值,其具体的计算形式为:其中,n表示纳税人行业信息样本的数量,表示第i个样本的第j个数值型属性取值;Step2.计算各个属性的方差记σ=(σ1,σ2,...,σm)为各个数值型属性的方差,其中m表示数值型属性的种类数,σi表示第i个数值型属性的方差,σi计算的具体形式为:均值和方差是数值型属性的基本指标,通过均值和方差可对数值型属性做标准化处理;Step3.对数据进行标准化处理根据前述两个步骤计算的数值型属性的均值和方差对样本数据进行标准化,具体形式为:其中,是z-score处理后的结果,Xi是第i个数值型属性对应的列向量,ui表示第i个数值型属性的均值,σi表示第i个数值型属性的方;使用One-Hot对类别型属性进行编码,详细步骤为:Step1....
【专利技术属性】
技术研发人员:郑庆华,高宇达,阮建飞,赵珮瑶,董博,孙铭潞,田雨润,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。