一种企业行业分类方法技术

技术编号:17780399 阅读:56 留言:0更新日期:2018-04-22 09:16
本发明专利技术公开了一种企业行业分类方法,该方法利用半监督学习的图分裂聚类算法有效地提取了企业的主营业务关键词,并基于梯度提升决策树使用提取的关键词作为特征,训练级联分类器将企业按行业分类,解决了人工分类的繁琐问题。具体方法为:1)利用词向量和半监督图分裂聚类算法提取企业的主营业务关键词,剔除垃圾词,构造关键词库;2)将提取的关键词作为特征输入训练级联分类器,每一级的分类器对企业分类,未分类的企业按下一级的分类器分类。本发明专利技术不仅能自动构建更新并分类关键词,而且解决了千万级别的企业行业分类问题,能有效地解决了人工标注的问题。

【技术实现步骤摘要】
一种企业行业分类方法
本专利技术涉及数据分类方法研究领域,更具体的是,涉及行业关键词提取,在企业经营范围与多个行业描述均有交叉的情况下,融合半监督图分裂聚类和级联梯度提升决策树的企业行业分类方法。
技术介绍
中华人民共和国国家统计局在2013年发布的行业分类标准中,一共分为20个一级行业,细分为96个二级行业。企业的行业标签是一个重要字段,而全国已有企业达千万级别,并且每天有不少企业孵化,如何快速对企业按行业分类是个重要问题。在以往的行业划分规范中,企业所属行业由企业的经营范围描述而得。但是,由于企业的经营范围描述往往涉及到多个行业的描述,人工分类的工作存在着更多的困难。为了解决人工分类工作繁琐的问题,需要提出企业行业分类方法。企业行业分类是自然语言处理领域的一个重要应用。首先,在文本特征表示上,有词向量和词袋模型两种。由于行业描述大部分是专有名词,词向量不适用于此场景。并且,如何提取企业描述中的业务关键词,成为了主要问题之一。其次,常见的分类方法有支持向量机、决策树、神经网络、逻辑回归、k邻近值、自适应增强方法等。支持向量机(SupportVectorMachine,SVM)可用于小数据分类,而对于大数据分类难以实施,训练模型速度极慢,难以拟合。决策树(DecisionTree,DT)可对样本快速分类,但是由于对特征决策较为绝对,容易出现过拟合。传统神经网络需要拟合的参数量较大,训练过程极慢,不适用于大数据处理。逻辑回归(LogicRegression,LR)与传统神经网络类似,而k邻近值(K-NearestNeighbors,KNN)计算复杂,需要大存储量。自适应增强方法(AdaBoost)将多个弱分类器组成强分类器,在分类效果上,略差于梯度提升决策树(GradientBoostingDecisionTree,GBDT)。除此之外,单个分类器模型过分依赖于样本描述的覆盖率,当对一个从未出现过的描述的新样本分类时,准确率较低。为此,提供一种分类识别速度快、准确率高的企业行业分类方法具有重要的研究意义和实用价值。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种企业行业分类方法,该方法融合半监督图分裂聚类和级联梯度提升决策树,综合并有效利用了词频逆文档词频(TermFrequency-InverseDocumentFrequency,TFIDF)方法、图的分裂聚类方法、k均值聚类方法、词向量和词袋模型、梯度提升决策树等方法,可对企业描述提取主营业务关键词,半监督构建关键词库和自动更新关键词库,并以级联的方式对企业按行业分类。本专利技术的目的通过以下的技术方案实现:一种企业行业分类方法,包括步骤:利用词向量和半监督图分裂聚类方法提取企业的主营业务关键词,剔除垃圾词,构造关键词库;将提取的关键词作为特征输入训练级联分类器,每一级的分类器对企业进行分类,未分类的企业按下一级的分类器分类。具体的,包括步骤:(1)构造语料库,训练词向量模型;(2)基于文本中每个词的权重初步提取企业关键词;(3)用词向量和聚类方法提取企业的主营业务关键词,剔除垃圾词,训练词类模型,得到词类模型分类器;(4)细聚类筛选出的关键词,构造关键词库;(5)处理特征输入,训练层次分类器和级联分类器,其中层次分类器由一级行业分类器和二级行业分类器组成,级联分类器由多个层次分类器组成;(6)提取新关键词并自动更新关键词库。优选的,所述步骤(1)中,从企业简介、企业专利、企业招聘信息、企业经营范围等描述中获取文本,训练N维的词向量模型。优选的,所述步骤(2)初步提取企业关键词的步骤是:首先对文本描述分词,其次剔除停用词,再筛选特定词性的词语,最后根据词频逆词频计算每篇文档中每个词的权重,删除权重值低于预设值的词,剩下的即为初步提取的企业关键词。优选的,所述步骤(3)中,对多篇已提取的关键词使用词向量和k-means聚类,以词向量计算两个词之间的欧式距离;聚类后,人工干预对k个类按主营业务关键词和垃圾词划分为两类,使用梯度提升决策树对垃圾词和关键词训练词类模型。优选的,所述步骤(4)中,细聚类的方法是对已筛选出的关键词再次进行k-means聚类细分,得到多个类别的关键词,构造出每个类别对应的关键词库。如:服饰相关的词语聚为一类,零件相关词语聚为一类等等。优选的,所述步骤(5)的具体步骤是:(5-1)对企业经营范围描述使用TFIDF算法提取关键词,使用关键词库对未能提取的关键词匹配进行补充;将训练样本中所有经营范围描述所提取的关键词组成词袋,即每个词对应一个词ID;使用词袋模型向量化企业经营范围的描述;(5-2)训练层次分类器的步骤是:层次分类器由一级行业分类器和二级行业分类器组成,一级行业分类器由M个模型组成,代表M个一级行业;在第i个模型中,以行业i的描述作为正样本,其他行业j的描述作为负样本,j≠i,使用梯度提升决策树算法训练模型;二级行业分类器的模型数为P,代表P个二级行业,其中,每个一级行业下有相关的二级行业分类模型;训练一级行业下的二级行业分类器与一级行业分类器同理,如批发零售业下细分为批发业和零售业,则该一级行业下有两个二级行业分类模型。若样本被一级行业分类器预测为批发零售业,则使用批发业和零售业的二级行业分类模型对样本再次预测,得到该样本的二级行业类别;(5-3)训练级联分类器的步骤是:级联分类器由多个层次分类器组成,假设总分类器由多级分类器A、B、C等组成,首先使用A级分类器对样本分类,若未能分类,则继续使用下一级分类器分类;若能分类则输出结果。更进一步的,在一级行业分类器中,本专利技术选取概率最高的行业类别作为一级行业类别,在二级行业分类器中,考虑到一个企业可属多个行业或行业描述有重合的情况,选取概率值超过0.5的行业类别作为该企业的二级行业类别。优选的,所述步骤(6)提取新关键词并自动更新关键词库的步骤包括:(6-1)基于步骤(3)、(4)得到的词类模型分类器和关键词库,对新文本描述分词,使用垃圾词库对分词结果匹配,剔除垃圾词;使用TFIDF方法提取前n个关键词,并且使用关键词库对分词结果匹配,找出在库中的关键词,和前n个不在库中的关键词;(6-2)对前n个不在库中的关键使用词类模型分类器分类,若分为垃圾词则对垃圾词库补充,若为关键词则进入步骤(6-3)下一步验证;(6-3)对词类模型分类的关键词计算每个词到每个关键词类的平均距离,归类到最短距离的关键词类;然后对该关键词类进行2-means划分,使用强弱团体判别是否满足分裂条件,并统计分裂后的词数是否大于2,更新关键词库和关键词类;最后将在库的关键词和提取的新关键词作为样本的关键词标签。更进一步的,所述步骤(6-3)中,使用强弱团体判别是否满足分裂条件,步骤是:(6-3-1)强弱团体的定义如下:强团体:若一个集合V内的每个词到集合内所有其他词的余弦相似度的均值大于到另一个集合中所有词的余弦相似度的均值,则称此集合为强团体,用公式表示为:弱团体:若一个集合V内的所有词到集合内所有其他词的余弦相似度的和的均值大于此集合内的所有词到另一个集合中的所有词的余弦相似度的和的均值,则称此集合为弱团体,用公式表示为:(6-3-2)若子类p1,p2中有一个子类既不满足强团体,也本文档来自技高网
...
一种企业行业分类方法

【技术保护点】
一种企业行业分类方法,其特征在于,包括步骤:利用词向量和半监督图分裂聚类方法提取企业的主营业务关键词,剔除垃圾词,构造关键词库;将提取的关键词作为特征输入训练级联分类器,每一级的分类器对企业进行分类,未分类的企业按下一级的分类器分类。

【技术特征摘要】
1.一种企业行业分类方法,其特征在于,包括步骤:利用词向量和半监督图分裂聚类方法提取企业的主营业务关键词,剔除垃圾词,构造关键词库;将提取的关键词作为特征输入训练级联分类器,每一级的分类器对企业进行分类,未分类的企业按下一级的分类器分类。2.根据权利要求1所述的企业行业分类方法,其特征在于,包括步骤:(1)构造语料库,训练词向量模型;(2)基于文本中每个词的权重初步提取企业关键词;(3)用词向量和聚类方法提取企业的主营业务关键词,剔除垃圾词,训练词类模型,得到词类模型分类器;(4)细聚类筛选出的关键词,构造关键词库;(5)处理特征输入,训练层次分类器和级联分类器,其中层次分类器由一级行业分类器和二级行业分类器组成,级联分类器由多个层次分类器组成;(6)提取新关键词并自动更新关键词库。3.根据权利要求2所述的企业行业分类方法,其特征在于,所述步骤(1)中,从企业简介、企业专利、企业招聘信息、企业经营范围等描述中获取文本,训练N维的词向量模型。4.根据权利要求2所述的企业行业分类方法,其特征在于,所述步骤(2)初步提取企业关键词的步骤是:首先对文本描述分词,其次剔除停用词,再筛选特定词性的词语,最后根据词频逆词频计算每篇文档中每个词的权重,删除权重值低于预设值的词,剩下的即为初步提取的企业关键词。5.根据权利要求2所述的企业行业分类方法,其特征在于,所述步骤(3)中,对多篇已提取的关键词使用词向量和k-means聚类,以词向量计算两个词之间的欧式距离;聚类后,人工干预对k个类按主营业务关键词和垃圾词划分为两类,使用梯度提升决策树对垃圾词和关键词训练词类模型。6.根据权利要求2所述的企业行业分类方法,其特征在于,所述步骤(4)中,细聚类的方法是对已筛选出的关键词再次进行k-means聚类细分,得到多个类别的关键词,构造出每个类别对应的关键词库。7.根据权利要求2所述的企业行业分类方法,其特征在于,所述步骤(5)的具体步骤是:(5-1)对企业经营范围描述使用TFIDF算法提取关键词,使用关键词库对未能提取的关键词匹配进行补充;将训练样本中所有经营范围描述所提取的关键词组成词袋,即每个词对应一个词ID;使用词袋模型向量化企业经营范围的描述;(5-2)训练层次分类器的步骤是:层次分类器由一级行业分类器和二级行业分类器组成,一级行业分类器由M个模型组成,代表M个一级行业;在第i个模型中,以行业i的描述作为正样本,其他行业j的描述作为负样本,j≠i,使用梯度提升决策树算法训练模型;二级行业分类器的模型数为P,代表P个二级行业,其中,每个一级行业下有相关的二级行业分类模型;训练一级行业下的二级行业分类器与一级行业分类器同理,若样本被一级行业分类器预测为该一级行业,则使用该一级行业下相关的二级行业分类模型对样本再次预测,得到该样本的二级行业类别;(5-3)训练级联分类器的步骤是:级联分类器由多个层次分类器组成,假设总分类器由多级分类器A...

【专利技术属性】
技术研发人员:陈开冉吴璐璐
申请(专利权)人:广州探迹科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1