当前位置: 首页 > 专利查询>东南大学专利>正文

一种企业领域分类及企业关键词筛选方法技术

技术编号:19934070 阅读:22 留言:0更新日期:2018-12-29 04:30
本发明专利技术公开了一种企业领域分类及企业关键词筛选方法,该方法通过对企业领域语料库进行训练得出相关领域的特征词汇作为分类词典,然后利用这种分类词典对企业的简介文档进行行业分类,在分类之后,本方法还能从企业的简介文档中提取出能代表这个企业所从事领域的行业标签。此外,本方法能克服中文文本处理中的大多数噪声词影响,行业分类错误率低,分类效率高,综合表现性能优异。

【技术实现步骤摘要】
一种企业领域分类及企业关键词筛选方法
本专利技术属于中文文本处理和文本挖掘领域,尤其涉及一种企业领域分类及企业关键词筛选方法。
技术介绍
在信息时代,有非常大量的信息都储存在文本当中,比如各种研究文档、企业信息文档、图书、网页文档等。近几年计算机技术突飞猛进,数据挖掘、文本信息挖掘等技术成为了信息科学研究的热点,而将一些成熟的文本挖掘技术用于生产实际也是众望所归。在非常多的情况下,读者并没有足够的精力完整读完得到的所有的文本,所以很多文档都提供了摘要与关键词来帮助读者判断文本内容自己是否感兴趣,是否要继续读下去。在过去,文本摘要和关键词提取都是靠人力完成,但是在信息爆炸的时代这种做法显然就显得效率低下,人们自然而然得就开始寻求依靠计算机来对文本进行关键词提取与摘要筛选的技术。企业标签指的是从一个企业的官方非结构化信息文本,如公司简介文档、电子表格、客户电子邮件、问题查询、网页等,中挖掘提取出来的描述此企业性质、所属行业、产品特点等信息的文本标签,借助这些文本标签我们可以更方便地对大量的企业进行行业分类与管理。现有的文本关键词提取技术最大的问题是容易提取出过多的噪声词,噪声词即与文本内容不相关的词,如语气词或者形容词,过多的噪声词不仅会降低提取的标签词的质量,而且会大幅度影响程序运算效率,而本文通过改良了传统的TF-IDF算法,大幅度降低了关键词提取结果中噪声词的比例。
技术实现思路
专利技术目的:针对以上现有技术存在的问题,本专利技术提出一种企业领域分类及企业关键词筛选方法,该方法可以解决目前针对企业领域的文本分类技术缺乏,企业搜索引擎所提取的标签噪声词多的问题,本专利技术提供的方法可以对企业进行高准确率的分类,并提供了一种企业标签提取的思路,通过本专利技术为企业文档提取的关键词可以降低企业搜索引擎中的噪声标签,使企业搜索引擎定位更准确。技术方案:为实现本专利技术的目的,本专利技术所采用的技术方案是:一种企业领域分类及企业关键词筛选方法,该方法包括如下步骤:(1)对企业文档语料库进行训练,建立所有企业领域的分类词典;(2)根据步骤(1)得到的企业领域分类词典,对目标企业进行领域分类;(3)根据步骤(2)得到的目标企业的领域分类,提取该目标企业的企业标签。其中,步骤(1)中,建立所有企业领域的分类词典方法如下:(1.1)对所有企业领域的训练语料库中的文档进行文本预处理,得到所有企业领域所对应的词语,并记录词语的词性;(1.2)计算企业领域dj词语的词频TFij式(1)中,fij代表了词语ti在企业领域dj的所有文档中的出现次数,∑jfij是目标企业领域dj中所有文档的所有词语的总数;(1.3)计算企业领域dj词语的逆向文档频率IDFi其中,N是所有领域语料库中所有企业文档数目,即总语料库,DFi代表了总语料库中包含了词语ti的文档数目;(1.4)引入方差因子,其计算方法如下:式(3)中,VARi代表词语ti的方差因子,K是企业领域的总数量,DF(i,j)是在企业领域dj中包含了词语ti的文档数量,DFj是企业领域dj中所有文档数量,DFC(i,j)为DF(i,j)与DFj的商,即对DF(i,j)的归一化操作,是每一个企业领域包含了词语ti的文档数量的平均值;(1.5)计算计算企业领域dj所有词语的权重TF-IDFi=VARi*TFij*IDFi(4)。进一步的,对步骤(1.5)计算得到企业领域dj词语的TF-IDF权重进行排序,去掉其中所有词性不是名词的词语,得到筛选过后的新的词表,并取新词表中权重前Num%的词语作为候选关键词,进一步过滤与企业领域无关的噪声词,得到企业领域dj的分类词典,根据上述方法计算所有企业领域的分类词典。其中,步骤(2)中,目标企业领域分类方法如下:将目标企业的文档处理得到的词集合与每一个企业领域建立的分类词典的词集合分别进行比较,比较目标企业的词集合与每一个企业领域分类词典的词集合相似度,取相似度最大的企业领域作为目标企业的所属领域。进一步的,所述相似度计算方法为:目标企业的词集合与每个领域分类词典词集合相同的词的数量除以每个分类词典自身的总词数并乘以百分之百。其中,步骤(3)中,企业标签词提取方法如下:(3.1)对目标企业的文档进行预处理,得到与目标企业相关的所有词语;(3.2)计算目标企业所有词语的词频TFic式(5)中,fic代表了词语ti在待处理的目标企业所有文档集合Pc中的出现次数,∑cfic是目标企业所有文档集合Pc中所有词语的总数;(3.3)计算目标企业所有词语的逆向文档频率IDFi其中,M是目标企业被分类到的企业领域中所有企业文档数目,DFi代表了这些文档中包含了词语ti的文档数目;(3.4)计算目标企业词语ti权重:TF-IDFi=TFic*IDFi(7)根据公式(7)计算目标企业所有词语的权重,并进行权重排序,选择权重最大的词语作为企业标签词。有益效果:与现有技术相比,本申请的技术方案具有以下有益效果:本方法能克服中文文本处理中的大多数噪声词影响,行业分类错误率低,分类效率高,综合表现性能优异,同时提取的企业标签词比较具有代表性;同时本方法随着训练文本的增多准确度也会上升,并弥补了目前我国市面上存在的同样目的或效果的软件或算法很少这一缺失。附图说明图1为本专利技术提供的一种企业领域分类及企业标签提取方法的步骤流程示意图;图2为分类词典训练流程图;图3为针对金属材料领域企业分类词典训练示例;图4为利用分类词典对企业进行领域分类的示意图及对华为进行的领域分类;图5为对华为的企业标签词提取;图6为对华为的企业标签词提取结果。具体实施方式下面结合附图和实施例对本专利技术的技术方案作进一步的说明。本专利技术所述的一种企业领域分类及企业关键词筛选方法,该方法总体步骤如下:首先,需要通过爬虫程序收集大量的不同领域企业介绍文档归类整理为训练语料库,训练语料库即一个经过人工分类标定所属类别的企业文档数据库。然后采用本专利技术提供的改良TF-IDF算法进行企业分类词典训练。传统的TF-IDF算法只利用了文本中的词频信息,提取的关键词准确度并不高,本专利技术改良的TF-IDF算法,针对企业介绍文档具有的文档简洁、信息浓缩度高的特点,并分析得出一般来说能代表企业行业特征的词都是名词这一特点,提出了加入词性这一特征的改良TF-IDF算法。改良的TF-IDF算法会将提取出的候选关键词中除了名词以外其他词性的词汇都过滤掉,只在名词中进一步筛选得到关键词,这一步骤大幅度降低了关键词集中可能出现噪声词的概率。另一方面在训练分类词典的过程中还加入了方差因子这一要素来强化特征词的TF-IDF权重,进一降低了噪声词的权重排名并提高了特征词的权重排名。本专利技术的方法具体实施步骤如下:(a)对要训练分类词典的目标企业领域的训练语料库中的文档均经过中文分词及停止词过滤处理,然后统计每个词语分别出现的词数与词集总词数的商作为TF(词频),同时还需要记录每个词的词性,以及每个词分别在这个领域的多少个文档中出现过并据此计算出每个词的DFC,将这个统计好的目标企业领域的词语集合作为目标领域训练词集。(b)针对所有领域所有企业的文档总语料库,统计目标领域训练词集中的每一个词语分别在多少个企业的文档中出现过,并记录这个数字用于计算传统TF-IDF算法中本文档来自技高网...

【技术保护点】
1.一种企业领域分类及企业关键词筛选方法,其特征在于,该方法包括如下步骤:(1)对企业文档语料库进行训练,建立所有企业领域的分类词典;(2)根据步骤(1)得到的企业领域分类词典,对目标企业进行领域分类;(3)根据步骤(2)得到的目标企业的领域分类,提取该目标企业的企业标签。

【技术特征摘要】
1.一种企业领域分类及企业关键词筛选方法,其特征在于,该方法包括如下步骤:(1)对企业文档语料库进行训练,建立所有企业领域的分类词典;(2)根据步骤(1)得到的企业领域分类词典,对目标企业进行领域分类;(3)根据步骤(2)得到的目标企业的领域分类,提取该目标企业的企业标签。2.根据权利要求1所述的一种企业领域分类及企业关键词筛选方法,其特征在于,步骤(1)中,建立所有企业领域的分类词典方法如下:(1.1)对所有企业领域的训练语料库中的文档进行文本预处理,得到所有企业领域所对应的词语,并记录词语的词性;(1.2)计算企业领域dj词语的词频TFij式(1)中,fij代表了词语ti在企业领域dj的所有文档中的出现次数,Σjfij是目标企业领域dj中所有文档的所有词语的总数;(1.3)计算企业领域dj词语的逆向文档频率IDFi其中,N是所有领域语料库中所有企业文档数目,即总语料库,DFi代表了总语料库中包含了词语ti的文档数目;(1.4)引入方差因子,其计算方法如下:式(3)中,VARi代表词语ti的方差因子,K是企业领域的总数量,DF(i,j)是在企业领域dj中包含了词语ti的文档数量,DFj是企业领域dj中所有文档数量,DFC(i,j)为DF(i,j)与DFj的商,即对DF(i,j)的归一化操作,是每一个企业领域包含了词语ti的文档数量的平均值;(1.5)计算计算企业领域dj所有词语的权重TF-IDFi=VARi*TFij*IDFi(4)。3.根据权利要求2所述的一种企业领域分类及企业关键词筛选方法,其特征在于,对步骤(1.5)计算得到企业领域dj词语的TF‐IDF权重进行...

【专利技术属性】
技术研发人员:邝野夏思宇李钢
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1