The present invention relates to the field of information processing, in particular to the automatic classification system of enterprise information industry based on the screening method combined with recurrent neural network and industry structure; threshold control neural network classification model, according to the business scope of the enterprise information and the name of the enterprise information, to realize the automatic classification of enterprise level two industry judgment. The invention uses deep learning technology, using recurrent neural network GRU, automatic text data feature extraction, neural network by adding threshold control, realized based on the company name on the business scope of the automatic information filtering, between different classification level two for the industry is very difficult to distinguish, identify key information, realize the prediction of precise and efficient two industry categories. Make up for the lack of using a recurrent neural network alone, but also play a neural network characteristics, automatic extraction, without manual intervention advantages.
【技术实现步骤摘要】
基于自动信息筛选的企业行业分类系统
本专利技术涉及信息处理领域,特别涉及基于自动信息筛选的企业行业分类系统。
技术介绍
随着社会的进步和市场的繁荣和发展,中国经济一直处于高速的发展轨道上,企业作为社会经济中最重要的活动主体,在经济中扮演着重要的角色,对于企业信息的整理和分析有助于帮助相关决策者了解该企业的经营状况,发现潜在经营风险。企业的二级行业类别较多,如果人工对海量的企业进行分类,将耗费大量的人力。通常会借助机器学习的手段进行数据挖掘,自动完成行业分类。主流的方法分有两种:一种是使用传统的机器学习方法,首先人工提取特征,再利用经典的分类算法,比如SVM,朴素贝叶斯等分类器完成行业分类。另一种是利用深度学习技术,比如循环神经网络完成自动的特征提取和分类任务。二级行业分类相比一级行业分类,在经营范围的描述上,不同行业之间存在更多的相似性,这导致利用常规方法很难发现这种微小的差异,进而较难作出正确的判断。如果使用传统的机器学习方法,需要做大量的特征工程,比如TF-IDF,N-GRAM等方法提取重要的特征组成高维向量放入不同的分类器算法中进行试验和调参,工作量大而繁重,并且都是凭借人的一些经验和猜想在进行的尝试,很可能花费了很大的精力最终效果却不显著。即便使用深度学习的方法,比如循环神经网络,虽然免去了一些人工的特征提取的工作,但是由于经营范围的描述信息通常很分散,包含了多个行业的内容,单从经营范围无法确定哪些信息对判断行业类别是有效的。比如,XX酿酒有限公司的经营范围描述是“白酒酿造,批发零售五金、日用品、饲料、建筑材料”。该描述中包含了多个行业类别,很难确 ...
【技术保护点】
基于自动信息筛选的企业行业分类系统,其特征在于,所述系统包含行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。
【技术特征摘要】
1.基于自动信息筛选的企业行业分类系统,其特征在于,所述系统包含行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。2.如权利要求1所述的系统,其特征在于,采用的所述行业分类神经网络模型的向前算法公式如下:hj=GRU1(xj,hj-1)sj=GRU2(zj,sj-1)f=σ(W(f)hT+U(f)sT)y=softmax(b)其中,GRU1为第一循环神经网络,hj是GRU1在输入序列中第j个词的输入后生成的隐藏层状态向量,xj是输入序列中第j个词的词向量;GRU2为第二循环神经网络;sj是GRU2在输入序列中第j个词的输入后生成的隐藏层状态向量,zj是输入序列中第j个词的词向量;f是用于信息筛选的控制门向量,hT是最后一个词输入后生成的隐藏层状态向量,sT是最后一个词输入后生成的隐藏层状态向量,f由hT和sT通过一个全连接的神经网络生成,其网络的参数分别是W(f)和U(f),激活函数是sigmoid函数,由符号σ表示;b是另一个全连接的神经网络得到的预测向量,该全连接神经网络的输入向量为sT、f和hT,激活函数为tanh,由完成信息筛选,W为sT的参数,U为的参数;y为通过本神经网络的最终的每个类别的分类概率分布向量,由向量b通过一个softmax层得到。3.如权利要求1所述的系统,其特征在于,包含以下实现步骤:(1)将待分类企业的企业名称和经营范围进行分词处理,将分词后的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,将索引值映射成不...
【专利技术属性】
技术研发人员:蒋欣辰,刘世林,
申请(专利权)人:成都数联铭品科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。