一种智能企业分类算法制造技术

技术编号:21629142 阅读:19 留言:0更新日期:2019-07-17 11:09
本发明专利技术公开了一种智能企业分类算法,包括:文本预处理流程和分类算法,其中文本预处理流程包括特征选取、分词、去除停止词以及选取有代表性的词;分类算法为一机器学习算法,需要使用已有的有正确分类的数据对算法进行训练,得到可靠的分类器对新的描述文本作出分类。该智能企业分类算法解决了自动企业分类问题,不仅分类准确率高,而且可以用于将企业按照描述文本自动分类到国家统计局所规定的分类,或者战略新兴产业分类。

A Classification Algorithms for Intelligent Enterprises

【技术实现步骤摘要】
一种智能企业分类算法
本专利技术属于自然语言处理
,更具体的说是涉及一种用于将企业按照描述文本自动分类到国家统计局所规定的分类,或者战略新兴产业分类的智能企业分类算法。
技术介绍
文本分类是指用电脑对文本集按照一定的分类体系或标准进行自动分类标记,属于自然语言处理领域中的一个主要问题。文本分类问题是现今IT企业普遍面对的一个问题,有很大研究价值。企业分类是指对描述各个企业信息的文本进行分类,属于文本分类技术的应用。有的机构有一些企业的文本描述数据,但缺少合适的企业分类算法来将这些企业准确地分类为各个官方规定的企业类别,从而不能挖掘出数据的价值。对于企业分类问题,最早的方法是采用人工分类,虽然可靠但是需要耗费大量人力,文本越多越不可取。而采用简单规则指定关键词来自动分类的方法,则不能保证分类的准确性,所选关键词覆盖不全,常常会出现误判。企业文本分类属于短文本分类问题,目前主流的短文本分类技术是使用SVM,即支持向量机。而除SVM之外的其他机器学习算法,如决策树、神经网络等,往往会容易导致过拟合,即测试误差远大于训练误差,模型泛化能力不好;并且直接使用libshorttext等工具,又缺少对中文文本的支持,对于企业分类问题,不能做到足够的预处理。因此,如何提供一种分类准确率高的智能企业分类算法是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种智能企业分类算法,该算法解决了自动企业分类问题,不仅分类准确率高,而且可以用于将企业按照描述文本自动分类到国家统计局所规定的分类,或者战略新兴产业分类。为了实现上述目的,本专利技术采用如下技术方案:一种智能企业分类算法,包括:文本预处理流程和分类算法;其中,所述文本预处理流程包括如下步骤:(1)特征选取:选取合适的文本描述字段,一般选取企业的经营范围描述字段,结合企业名称来分析;(2)分词:将中文文本分割成机器能够处理的单词,是一种处理中文常用的较为成熟的技术,且常用算法包括隐马尔可夫模型;(3)去除停止词:去掉无意义的虚词、符号以及去掉有干扰的各个注释,以避免对文本分类器引入不必要的噪声;(4)选取有代表性的词:根据TF-IDF算法将得到的词进一步抽取,得到有代表性的词;所述分类算法为一机器学习算法,需要使用已有的有正确分类的数据对算法进行训练,得到可靠的分类器对新的描述文本作出分类。优选的,在上述一种智能企业分类算法中,所述分类算法使用的是线性核函数的SVM,将文本预处理得到的已有数据分为训练集和交叉验证集,参考模型在交叉验证集上的表现,选取合适的模型参数,待确定好模型后对经过预处理的新的文本进行分类。优选的,在上述一种智能企业分类算法中,所述SVM即支持向量机,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。SVM即支持向量机,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能,通过最大化决策边界的边缘来控制模型的能力。经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种智能企业分类算法,使用本专利技术进行企业分类时,只需加载训练好的模型到内存,将待分类的企业描述字段传给模型,模型的预处理模块会自动进行预处理,然后分类器会给出预测的分类;另外对于不属于战略新兴产业的企业,本专利技术可以将其归为“其他”类;以及运用该智能企业分类算法将已有的有正确分类的数据80%分为训练集,20%分为交叉验证集,交叉验证集上的准确率一般会比训练集低一些,但如果低太多说明过拟合现象比较明显,需要调整参数以及搜集更多的数据;并且本专利技术可以将企业分类至统计局分类或战略新兴产业分类的二级分类,在交叉验证集上的准确率超过70%。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1附图为智能企业分类算法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例公开了一种智能企业分类算法,不仅分类准确率高,而且能够解决自动企业分类的问题。请参见附图1,本专利技术具体提供的一种智能企业分类算法,具备包括:文本预处理流程和分类算法;其中,文本预处理流程包括如下步骤:(1)特征选取:选取合适的文本描述字段,一般选取企业的经营范围描述字段,结合企业名称来分析;(2)分词:将中文文本分割成机器能够处理的单词,是一种处理中文常用的较为成熟的技术,且常用算法包括隐马尔可夫模型;(3)去除停止词:去掉无意义的虚词、符号以及去掉有干扰的各个注释,以避免对文本分类器引入不必要的噪声;(4)选取有代表性的词:根据TF-IDF算法将得到的词进一步抽取,得到有代表性的词;分类算法为一机器学习算法,需要使用已有的有正确分类的数据对算法进行训练,得到可靠的分类器对新的描述文本作出分类。为了进一步优化上述技术方案,分类算法使用的是线性核函数的SVM,将文本预处理得到的已有数据分为训练集和交叉验证集,参考模型在交叉验证集上的表现,选取合适的模型参数,待确定好模型后对经过预处理的新的文本进行分类。为了进一步优化上述技术方案,SVM即支持向量机,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。若类别中某个类数量极少,则可以通过调整SVM参数进行过采样来提高这个类别的权重,避免因为训练样本的分布问题导致无法将样本分至此类别。训练数据的数量越多效果越好,本专利技术使用了20万条企业数据来训练统计局的分类模型,使用5万条企业数据来训练战略新兴产业分类的模型。本专利技术的分词环节采用了jieba,SVM分类算法采用了TextGrocery,这两个都是开源的软件包。需要调整jieba分词,编辑用户词典,使其能将与产业相关的词汇分出来。TextGrocery需要将数据的标签与数据以TAB键分隔,按照预处理方法将词汇提取出来以后按照独热(one-hot)编码将词汇对应为数字索引,将数据转换为libsvm格式,之后调用liblinear来进行训练、预测。为了利用交叉验证集进行参数选取,需要修改TextGrocery的源代码,使我们可以将参数传递给liblinear,以及改进预处理模块。如果不能保证训练数据的准确性,可以用初步训练好的SVM模型来筛选出有可能有错的训练数据,然后人工排除掉错误的数据。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。对所公开本文档来自技高网...

【技术保护点】
1.一种智能企业分类算法,其特征在于,包括:文本预处理流程和分类算法;其中,所述文本预处理流程包括如下步骤:(1)特征选取:选取合适的文本描述字段,一般选取企业的经营范围描述字段,结合企业名称来分析;(2)分词:将中文文本分割成机器能够处理的单词,是一种处理中文常用的较为成熟的技术,且常用算法包括隐马尔可夫模型;(3)去除停止词:去掉无意义的虚词、符号以及去掉有干扰的各个注释,以避免对文本分类器引入不必要的噪声;(4)选取有代表性的词:根据TF‑IDF算法将得到的词进一步抽取,得到有代表性的词;所述分类算法为一机器学习算法,需要使用已有的有正确分类的数据对算法进行训练,得到可靠的分类器对新的描述文本作出分类。

【技术特征摘要】
1.一种智能企业分类算法,其特征在于,包括:文本预处理流程和分类算法;其中,所述文本预处理流程包括如下步骤:(1)特征选取:选取合适的文本描述字段,一般选取企业的经营范围描述字段,结合企业名称来分析;(2)分词:将中文文本分割成机器能够处理的单词,是一种处理中文常用的较为成熟的技术,且常用算法包括隐马尔可夫模型;(3)去除停止词:去掉无意义的虚词、符号以及去掉有干扰的各个注释,以避免对文本分类器引入不必要的噪声;(4)选取有代表性的词:根据TF-IDF算法将得到的词进一步抽取,得到有代表性的词;所...

【专利技术属性】
技术研发人员:赵亮
申请(专利权)人:元素征信有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1