一种智能企业分类算法制造技术

技术编号：21629142 阅读：19 留言：0更新日期：2019-07-17 11:09

本发明专利技术公开了一种智能企业分类算法，包括：文本预处理流程和分类算法，其中文本预处理流程包括特征选取、分词、去除停止词以及选取有代表性的词；分类算法为一机器学习算法，需要使用已有的有正确分类的数据对算法进行训练，得到可靠的分类器对新的描述文本作出分类。该智能企业分类算法解决了自动企业分类问题，不仅分类准确率高，而且可以用于将企业按照描述文本自动分类到国家统计局所规定的分类，或者战略新兴产业分类。

A Classification Algorithms for Intelligent Enterprises

全部详细技术资料下载

【技术实现步骤摘要】
一种智能企业分类算法
本专利技术属于自然语言处理
，更具体的说是涉及一种用于将企业按照描述文本自动分类到国家统计局所规定的分类，或者战略新兴产业分类的智能企业分类算法。
技术介绍
文本分类是指用电脑对文本集按照一定的分类体系或标准进行自动分类标记，属于自然语言处理领域中的一个主要问题。文本分类问题是现今IT企业普遍面对的一个问题，有很大研究价值。企业分类是指对描述各个企业信息的文本进行分类，属于文本分类技术的应用。有的机构有一些企业的文本描述数据，但缺少合适的企业分类算法来将这些企业准确地分类为各个官方规定的企业类别，从而不能挖掘出数据的价值。对于企业分类问题，最早的方法是采用人工分类，虽然可靠但是需要耗费大量人力，文本越多越不可取。而采用简单规则指定关键词来自动分类的方法，则不能保证分类的准确性，所选关键词覆盖不全，常常会出现误判。企业文本分类属于短文本分类问题，目前主流的短文本分类技术是使用SVM，即支持向量机。而除SVM之外的其他机器学习算法，如决策树、神经网络等，往往会容易导致过拟合，即测试误差远大于训练误差，模型泛化能力不好；并且直接使用libshorttext等工具，又缺少对中文文本的支持，对于企业分类问题，不能做到足够的预处理。因此，如何提供一种分类准确率高的智能企业分类算法是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此，本专利技术提供了一种智能企业分类算法，该算法解决了自动企业分类问题，不仅分类准确率高，而且可以用于将企业按照描述文本自动分类到国家统计局所规定的分类，或者战略新兴产业分类。为了实现上述目的，本专利技术采用如下技术...

【技术保护点】
1.一种智能企业分类算法，其特征在于，包括：文本预处理流程和分类算法；其中，所述文本预处理流程包括如下步骤：(1)特征选取：选取合适的文本描述字段，一般选取企业的经营范围描述字段，结合企业名称来分析；(2)分词：将中文文本分割成机器能够处理的单词，是一种处理中文常用的较为成熟的技术，且常用算法包括隐马尔可夫模型；(3)去除停止词：去掉无意义的虚词、符号以及去掉有干扰的各个注释，以避免对文本分类器引入不必要的噪声；(4)选取有代表性的词：根据TF‑IDF算法将得到的词进一步抽取，得到有代表性的词；所述分类算法为一机器学习算法，需要使用已有的有正确分类的数据对算法进行训练，得到可靠的分类器对新的描述文本作出分类。

【技术特征摘要】
1.一种智能企业分类算法，其特征在于，包括：文本预处理流程和分类算法；其中，所述文本预处理流程包括如下步骤：(1)特征选取：选取合适的文本描述字段，一般选取企业的经营范围描述字段，结合企业名称来分析；(2)分词：将中文文本分割成机器能够处理的单词，是一种处理中文常用的较为成熟的技术，且常用算法包括隐马尔可夫模型；(3)去除停止词：去掉无意义的虚词、符号以及去掉有干扰的各个注释，以避免对文本分类器引入不必要的噪声；(4)选取有代表性的词：根据TF-IDF算法将得到的词进一步抽取，得到有代表性的词；所...

【专利技术属性】
技术研发人员：赵亮，
申请(专利权)人：元素征信有限责任公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人