基于自动信息筛选的企业行业分类系统技术方案

技术编号:15503228 阅读:112 留言:0更新日期:2017-06-03 23:45
本发明专利技术涉及信息处理领域,特别涉及基于自动信息筛选的企业行业分类系统;结合循环神经网络和门限控制的方法构造行业分类神经网络模型,根据企业的经营范围信息和企业名称信息,实现现对企业的二级行业的自动分类判断。本发明专利技术利用深度学习技术,使用GRU循环神经网络,自动对文本数据进行特征提取,通过加入门限控制的神经网络,实现了基于公司名对经营范围的自动信息筛选过滤,在很难区分的不同的二级行业分类之间,自动筛选出关键的信息,实现了高效精准的二级行业类别的预测。弥补了单独使用一个循环神经网络的不足,同时也发挥了神经网络的特征自动提取,无需人工干预的优势。

Enterprise classification system based on automatic information filtering

The present invention relates to the field of information processing, in particular to the automatic classification system of enterprise information industry based on the screening method combined with recurrent neural network and industry structure; threshold control neural network classification model, according to the business scope of the enterprise information and the name of the enterprise information, to realize the automatic classification of enterprise level two industry judgment. The invention uses deep learning technology, using recurrent neural network GRU, automatic text data feature extraction, neural network by adding threshold control, realized based on the company name on the business scope of the automatic information filtering, between different classification level two for the industry is very difficult to distinguish, identify key information, realize the prediction of precise and efficient two industry categories. Make up for the lack of using a recurrent neural network alone, but also play a neural network characteristics, automatic extraction, without manual intervention advantages.

【技术实现步骤摘要】
基于自动信息筛选的企业行业分类系统
本专利技术涉及信息处理领域,特别涉及基于自动信息筛选的企业行业分类系统。
技术介绍
随着社会的进步和市场的繁荣和发展,中国经济一直处于高速的发展轨道上,企业作为社会经济中最重要的活动主体,在经济中扮演着重要的角色,对于企业信息的整理和分析有助于帮助相关决策者了解该企业的经营状况,发现潜在经营风险。企业的二级行业类别较多,如果人工对海量的企业进行分类,将耗费大量的人力。通常会借助机器学习的手段进行数据挖掘,自动完成行业分类。主流的方法分有两种:一种是使用传统的机器学习方法,首先人工提取特征,再利用经典的分类算法,比如SVM,朴素贝叶斯等分类器完成行业分类。另一种是利用深度学习技术,比如循环神经网络完成自动的特征提取和分类任务。二级行业分类相比一级行业分类,在经营范围的描述上,不同行业之间存在更多的相似性,这导致利用常规方法很难发现这种微小的差异,进而较难作出正确的判断。如果使用传统的机器学习方法,需要做大量的特征工程,比如TF-IDF,N-GRAM等方法提取重要的特征组成高维向量放入不同的分类器算法中进行试验和调参,工作量大而繁重,并且都是凭借人的一些经验和猜想在进行的尝试,很可能花费了很大的精力最终效果却不显著。即便使用深度学习的方法,比如循环神经网络,虽然免去了一些人工的特征提取的工作,但是由于经营范围的描述信息通常很分散,包含了多个行业的内容,单从经营范围无法确定哪些信息对判断行业类别是有效的。比如,XX酿酒有限公司的经营范围描述是“白酒酿造,批发零售五金、日用品、饲料、建筑材料”。该描述中包含了多个行业类别,很难确定哪些内容是需要重点关注的,哪些内容是无用的,应该忽略。针对该类问题,如果人工进行判定,通常会先看一下公司名包含了“酿酒”,会将经营范围的描述重点放在“白酒酿造”,忽略其他无关的描述,最终确定该企业属于“酒、饮料和精制茶制造业”。基于人脑的这种信息处理方式的启发,本专利技术结合循环神经网络和门限控制的方法,构建了一个能够基于公司名自动进行信息筛选的神经网络,用于企业的二级行业分类。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供基于自动信息筛选的企业行业分类系统,构造行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,以实现对待分类企业二级行业的自动分类判断。为了实现上述专利技术目的,本专利技术提供了以下技术方案:基于自动信息筛选的企业行业分类系统,所述系统包含行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。具体的,所采用行业分类神经网络模型的向前算法公式如下:hj=GRU1(xj,hj-1)sj=GRU2(zj,sj-1)f=σ(W(f)hT+U(f)sT)y=softmax(b)其中,GRU1为第一循环神经网络,hj是GRU1在输入序列中第j个词的输入后生成的隐藏层状态向量,xj是输入序列中第j个词的词向量;GRU2为第二循环神经网络;sj是GRU2在输入序列中第j个词的输入后生成的隐藏层状态向量,zj是输入序列中第j个词的词向量;f是用于信息筛选的控制门向量,hT是最后一个词输入后生成的隐藏层状态向量,sT是最后一个词输入后生成的隐藏层状态向量,f由hT和sT通过一个全连接的神经网络生成,其网络的参数分别是W(f)和U(f),激活函数是sigmoid函数,由符号σ表示;b是另一个全连接的神经网络得到的预测向量,该全连接神经网络的输入向量为sT、f和hT,激活函数为tanh,由完成信息筛选,W为sT的参数,U为的参数;y为通过本神经网络的最终的每个类别的分类概率分布向量,由向量b通过一个softmax层得到。进一步的本专利技术系统包含以下实现步骤:(1)将待分类企业的企业名称和经营范围进行分词处理,建立经营范围的词语库,将分词后的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,将索引值映射成不同的固定长度的随机向量;(2)将二级行业分类中的所有类别进行编码,并将编码号转化成对应的向量,一个编码号对应一个向量;(3)在待分类企业中随机选取一定数量的样本,进行标注;在标注后中样划分为训练样本和开发样本;(4)将训练样本的二级行业分类向量、企业经营范围的词向量序列和企业名称的词向量序列输入行业分类神经网络模型中,通过神经网络的向前算法和误差反向传播,自动调节神经网络的权重参数,直到模型收敛;(5)将待分类企业的企业经营范围的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第一循环神经网络中,将对应企业名称的词向量序列输入已经训练完毕的所述行业分类神经网络模型的第二循环神经网络中;通过所述行业分类神经网络预测出待分类企业的二级行业分类结果。进一步的,所述行业分类神经网络模型的向前传播包含以下实现过程:①、将待分类企业经营范围的词向量序列输入GRU1,生成表征经营范围的向量;②、将待分类企业名称的词向量序列输入GRU2,生成表征企业名的向量;③、将表征经营范围的向量和表征公司名的向量送入全连接的神经网络生成信息筛选门控制向量;④、通过信息筛选门控制向量过滤表征经营范围的向量生成筛选后的经营范围向量;⑤、将筛选后的经营范围向量和表征公司名的向量送入全连接的神经网络生成预测向量,再通过softmax层生成二级行业类别的概率分布。进一步的,所述系统为加载有上述企业行业分类功能程序的计算机或者服务器。与现有技术相比,本专利技术的有益效果:本专利技术提供基于自动信息筛选的企业行业分类系统,本专利技术利用深度学习技术,使用GRU循环神经网络,自动对文本数据进行特征提取,通过加入门限控制的神经网络,实现了基于公司名对经营范围的自动信息筛选过滤,在很难区分的不同的二级行业分类之间,自动筛选出关键的信息,实现了高效精准的二级行业类别的预测。弥补了单独使用一个循环神经网络的不足,同时也发挥了神经网络的特征自动提取,无需人工干预的优势。附图说明:图1为本基于自动信息筛选的企业行业分类系统的实现步骤图。图2为语料库的编号已经向量映射关系示意图。图3为本专利技术系统中行业分类神经网络模型的向前算法过程示意图。具体实施方式下面结合试验例及具体实施方式对本专利技术作进一步的详细描述。但不应将此理解为本专利技术上述主题的范围仅限于以下的实施例,凡基于本
技术实现思路
所实现的技术均属于本专利技术的范围。基于自动信息筛选的企业行业分类系统,所述系统包含行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。具体的,所采用行业分类神经网络模型的向前算法公式如下:hj=GRU1(xj,hj-1)sj=GRU2(zj,sj-1)f=σ(W(f)hT+U(f)sT)y=softmax(b)其中,GRU1和GRU2是两个GRU循环神经网络(GRU1为第一循环神经网络,GRU2为第二循环神经网络),GRU将忘记门和输入门合成了一个单一的更新门,同时还混合了细胞状态和隐藏状态。最终的模型比标准的LSTM模型要简单,效果跟L本文档来自技高网
...
基于自动信息筛选的企业行业分类系统

【技术保护点】
基于自动信息筛选的企业行业分类系统,其特征在于,所述系统包含行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。

【技术特征摘要】
1.基于自动信息筛选的企业行业分类系统,其特征在于,所述系统包含行业分类神经网络模型;所述行业分类神经网络模型中结合循环神经网络和门限控制的方法,使用企业名称来对企业经营范围信息进行筛选,实现对待分类企业二级行业的自动分类判断。2.如权利要求1所述的系统,其特征在于,采用的所述行业分类神经网络模型的向前算法公式如下:hj=GRU1(xj,hj-1)sj=GRU2(zj,sj-1)f=σ(W(f)hT+U(f)sT)y=softmax(b)其中,GRU1为第一循环神经网络,hj是GRU1在输入序列中第j个词的输入后生成的隐藏层状态向量,xj是输入序列中第j个词的词向量;GRU2为第二循环神经网络;sj是GRU2在输入序列中第j个词的输入后生成的隐藏层状态向量,zj是输入序列中第j个词的词向量;f是用于信息筛选的控制门向量,hT是最后一个词输入后生成的隐藏层状态向量,sT是最后一个词输入后生成的隐藏层状态向量,f由hT和sT通过一个全连接的神经网络生成,其网络的参数分别是W(f)和U(f),激活函数是sigmoid函数,由符号σ表示;b是另一个全连接的神经网络得到的预测向量,该全连接神经网络的输入向量为sT、f和hT,激活函数为tanh,由完成信息筛选,W为sT的参数,U为的参数;y为通过本神经网络的最终的每个类别的分类概率分布向量,由向量b通过一个softmax层得到。3.如权利要求1所述的系统,其特征在于,包含以下实现步骤:(1)将待分类企业的企业名称和经营范围进行分词处理,将分词后的数据作为语料库生成词汇表,并对每一个词建立相应的词典索引,将索引值映射成不...

【专利技术属性】
技术研发人员:蒋欣辰刘世林
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1