一种基于LSTM深度学习的企业国民行业类别预测方法及系统技术方案

技术编号:26173232 阅读:19 留言:0更新日期:2020-10-31 13:54
本发明专利技术提供了一种基于LSTM深度学习的企业国民行业类别预测方法及系统,本发明专利技术将企业经营范围作为基础数据,从中获取有效数据,建立与获取有效数据相匹配的行业分类模型,根据行业分类模型预测新增企业的所属国民行业类别,本预测方法融合神经网络算法LSTM,可以更加灵活、准确得到企业在行业链中的位置信息,使众多蓬勃发展的小微创新型企业得到科学的行业划分,最大限度的方便税局人员,且并不仅限于这些人员的需要。

【技术实现步骤摘要】
一种基于LSTM深度学习的企业国民行业类别预测方法及系统
本专利技术涉及自然语言处理
,特别是涉及一种基于LSTM深度学习的企业国民行业类别预测方法及系统。
技术介绍
国民经济行业分类是划分全社会经济活动的基础性分类,是统计工作中使用范围最广、使用频率最高的分类标准,是处理和交换经济普查信息的基础。国民经济行业分类是自然语言处理领域的一个重要应用。首先,在文本特征表示上,有词向量和词袋模型两种。由于行业范围描述大部分是专有名词,词向量不适用于此场景。并且,如何提取企业描述中的业务关键词,成为了主要问题之一。常见的分类方法有支持向量机、决策树、神经网络、逻辑回归、k邻近值、自适应增强方法等。支持向量机可用于小数据分类,而对于大数据分类难以实施,训练模型速度极慢,难以拟合。决策树可对样本快速分类,但是对于特征决策较为绝对,容易出现过拟合。传统神经网络需要拟合的参数量较大,训练过程极慢,不适用于大数据处理。逻辑回归与传统神经网络类似,而k邻近值计算复杂,需要大存储量。自适应增强方法将多个弱分类器组成强分类器,在分类效果上,略差于梯度提升决策树,除此之外,单个分类器模型过分依赖于样本描述的覆盖率,当对一个从未出现过的描述的新样本分类时,准确率低。综上,现有技术中常见分类方法不能满足国民经济行业分类的需求,急需一种更加灵活、准确的分类方法。
技术实现思路
本专利技术的目的是提供一种基于LSTM深度学习的企业国民行业类别预测方法及系统,旨在解决现有技术中国民经济行业分类准确率低的问题,实现提高行业分类灵活性和准确度。为达到上述技术目的,本专利技术提供了一种基于LSTM深度学习的企业国民行业类别预测方法,所述方法包括以下操作:获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;通过分词工具对有效数据进行分词,获得数据集;加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;设置模型参数,对训练集进行模型训练;输入测试集的数据和标签,进行测试模型的预测,输出预测结果。优选地,所述基础数据的获取包括:通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;通过使用特定的接口获取某省部分企业的经营范围以及行业类别。优选地,所述数据预处理包括:数据清洗,包括处理缺失值、平滑噪声值、识别和处理异常值;对于清洗后的数据进行数据集成。优选地,所述embedding层替换后矩阵形状为:单词数*行长度。优选地,所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。本专利技术还提供了一种基于LSTM深度学习的企业国民行业类别预测系统,所述系统包括:数据获取模块,用于获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;分词模块,用于通过分词工具对有效数据进行分词,获得数据集;数据集获取模块,用于加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;模型搭建模块,用于搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;模型训练模块,用于设置模型参数,对训练集进行模型训练;预测模块,用于输入测试集的数据和标签,进行测试模型的预测,输出预测结果。优选地,所述基础数据的获取包括:通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;通过使用特定的接口获取某省部分企业的经营范围以及行业类别。优选地,所述数据预处理包括:数据清洗,包括处理缺失值、平滑噪声值、识别和处理异常值;对于清洗后的数据进行数据集成。优选地,所述embedding层替换后矩阵形状为:单词数*行长度。优选地,所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。
技术实现思路
中提供的效果仅仅是实施例的效果,而不是专利技术所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:与现有技术相比,本专利技术将企业经营范围作为基础数据,从中获取有效数据,建立与获取有效数据相匹配的行业分类模型,根据行业分类模型预测新增企业的所属国民行业类别,本预测方法融合神经网络算法LSTM,可以更加灵活、准确得到企业在行业链中的位置信息,使众多蓬勃发展的小微创新型企业得到科学的行业划分,最大限度的方便税局人员,且并不仅限于这些人员的需要。附图说明图1为本专利技术实施例中所提供的一种基于LSTM深度学习的企业国民行业类别预测方法流程图;图2为本专利技术实施例中所提供的深度学习模型结构示意图;图3为本专利技术实施例中所提供的一种基于LSTM深度学习的企业国民行业类别预测系统框图。具体实施方式为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本专利技术进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本专利技术的不同结构。为了简化本专利技术的公开,下文中对特定例子的部件和设置进行描述。此外,本专利技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本专利技术省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本专利技术。下面结合附图对本专利技术实施例所提供的一种基于LSTM深度学习的企业国民行业类别预测方法及系统进行详细说明。如图1所示,本专利技术实施例公开了一种基于LSTM深度学习的企业国民行业类别预测方法,所述方法包括以下操作:获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;通过分词工具对有效数据进行分词,获得数据集;加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;设置模型参数,对训练集进行模型训练;输入测试集的数据和标签,进行测试模型的预测,输出预测结果。进行数据采集,获取企业的基础数据。本专利技术实施例主要通过网络爬虫实现的网络数据采集方法本文档来自技高网
...

【技术保护点】
1.一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述方法包括以下操作:/n获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;/n通过分词工具对有效数据进行分词,获得数据集;/n加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;/n搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;/n设置模型参数,对训练集进行模型训练;/n输入测试集的数据和标签,进行测试模型的预测,输出预测结果。/n

【技术特征摘要】
1.一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述方法包括以下操作:
获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;
通过分词工具对有效数据进行分词,获得数据集;
加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;
搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;
设置模型参数,对训练集进行模型训练;
输入测试集的数据和标签,进行测试模型的预测,输出预测结果。


2.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述基础数据的获取包括:
通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;
通过使用特定的接口获取某省部分企业的经营范围以及行业类别。


3.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述数据预处理包括:
数据清洗,包括处理缺失值、平滑噪声值、识别和处理异常值;
对于清洗后的数据进行数据集成。


4.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述embedding层替换后矩阵形状为:单词数*行长度。


5.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。


6.一种基于LSTM深度学习的企业国...

【专利技术属性】
技术研发人员:孙中利韩春明孙世敏赵建明谷永胜郑淑贤
申请(专利权)人:航天信息山东科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1