一种企业行业分类方法技术

技术编号：17780399 阅读：56 留言：0更新日期：2018-04-22 09:16

本发明专利技术公开了一种企业行业分类方法，该方法利用半监督学习的图分裂聚类算法有效地提取了企业的主营业务关键词，并基于梯度提升决策树使用提取的关键词作为特征，训练级联分类器将企业按行业分类，解决了人工分类的繁琐问题。具体方法为：1)利用词向量和半监督图分裂聚类算法提取企业的主营业务关键词，剔除垃圾词，构造关键词库；2)将提取的关键词作为特征输入训练级联分类器，每一级的分类器对企业分类，未分类的企业按下一级的分类器分类。本发明专利技术不仅能自动构建更新并分类关键词，而且解决了千万级别的企业行业分类问题，能有效地解决了人工标注的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种企业行业分类方法
本专利技术涉及数据分类方法研究领域，更具体的是，涉及行业关键词提取，在企业经营范围与多个行业描述均有交叉的情况下，融合半监督图分裂聚类和级联梯度提升决策树的企业行业分类方法。
技术介绍
中华人民共和国国家统计局在2013年发布的行业分类标准中，一共分为20个一级行业，细分为96个二级行业。企业的行业标签是一个重要字段，而全国已有企业达千万级别，并且每天有不少企业孵化，如何快速对企业按行业分类是个重要问题。在以往的行业划分规范中，企业所属行业由企业的经营范围描述而得。但是，由于企业的经营范围描述往往涉及到多个行业的描述，人工分类的工作存在着更多的困难。为了解决人工分类工作繁琐的问题，需要提出企业行业分类方法。企业行业分类是自然语言处理领域的一个重要应用。首先，在文本特征表示上，有词向量和词袋模型两种。由于行业描述大部分是专有名词，词向量不适用于此场景。并且，如何提取企业描述中的业务关键词，成为了主要问题之一。其次，常见的分类方法有支持向量机、决策树、神经网络、逻辑回归、k邻近值、自适应增强方法等。支持向量机(SupportVectorMachine，SVM)可用于小数据分类，而对于大数据分类难以实施，训练模型速度极慢，难以拟合。决策树(DecisionTree，DT)可对样本快速分类，但是由于对特征决策较为绝对，容易出现过拟合。传统神经网络需要拟合的参数量较大，训练过程极慢，不适用于大数据处理。逻辑回归(LogicRegression，LR)与传统神经网络类似，而k邻近值(K-NearestNeighbors，KNN)计算复杂，需要大存...
一种企业行业分类方法

【技术保护点】
一种企业行业分类方法，其特征在于，包括步骤：利用词向量和半监督图分裂聚类方法提取企业的主营业务关键词，剔除垃圾词，构造关键词库；将提取的关键词作为特征输入训练级联分类器，每一级的分类器对企业进行分类，未分类的企业按下一级的分类器分类。

【技术特征摘要】
1.一种企业行业分类方法，其特征在于，包括步骤：利用词向量和半监督图分裂聚类方法提取企业的主营业务关键词，剔除垃圾词，构造关键词库；将提取的关键词作为特征输入训练级联分类器，每一级的分类器对企业进行分类，未分类的企业按下一级的分类器分类。2.根据权利要求1所述的企业行业分类方法，其特征在于，包括步骤：(1)构造语料库，训练词向量模型；(2)基于文本中每个词的权重初步提取企业关键词；(3)用词向量和聚类方法提取企业的主营业务关键词，剔除垃圾词，训练词类模型，得到词类模型分类器；(4)细聚类筛选出的关键词，构造关键词库；(5)处理特征输入，训练层次分类器和级联分类器，其中层次分类器由一级行业分类器和二级行业分类器组成，级联分类器由多个层次分类器组成；(6)提取新关键词并自动更新关键词库。3.根据权利要求2所述的企业行业分类方法，其特征在于，所述步骤(1)中，从企业简介、企业专利、企业招聘信息、企业经营范围等描述中获取文本，训练N维的词向量模型。4.根据权利要求2所述的企业行业分类方法，其特征在于，所述步骤(2)初步提取企业关键词的步骤是：首先对文本描述分词，其次剔除停用词，再筛选特定词性的词语，最后根据词频逆词频计算每篇文档中每个词的权重，删除权重值低于预设值的词，剩下的即为初步提取的企业关键词。5.根据权利要求2所述的企业行业分类方法，其特征在于，所述步骤(3)中，对多篇已提取的关键词使用词向量和k-means聚类，以词向量计算两个词之间的欧式距离；聚类后，人工干预对k个类按主营业务关键词和垃圾词划分为两类，使用梯度提升决策树对垃圾词和关键词训练词类模型。6.根据权利要求2所述的企业行业分类方法，其特征在于，所述步骤(4)中，细聚类的方法是对已筛选出的关键词再次进行k-means聚类细分，得到多个类别的关键词，构造出每个类别对应的关键词库。7.根据权利要求2所述的企业行业分类方法，其特征在于，所述步骤(5)的具体步骤是：(5-1)对企业经营范围描述使用TFIDF算法提取关键词，使用关键词库对未能提取的关键词匹配进行补充；将训练样本中所有经营范围描述所提取的关键词组成词袋，即每个词对应一个词ID；使用词袋模型向量化企业经营范围的描述；(5-2)训练层次分类器的步骤是：层次分类器由一级行业分类器和二级行业分类器组成，一级行业分类器由M个模型组成，代表M个一级行业；在第i个模型中，以行业i的描述作为正样本，其他行业j的描述作为负样本，j≠i，使用梯度提升决策树算法训练模型；二级行业分类器的模型数为P，代表P个二级行业，其中，每个一级行业下有相关的二级行业分类模型；训练一级行业下的二级行业分类器与一级行业分类器同理，若样本被一级行业分类器预测为该一级行业，则使用该一级行业下相关的二级行业分类模型对样本再次预测，得到该样本的二级行业类别；(5-3)训练级联分类器的步骤是：级联分类器由多个层次分类器组成，假设总分类器由多级分类器A...

【专利技术属性】
技术研发人员：陈开冉，吴璐璐，
申请(专利权)人：广州探迹科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人