互联网企业分类的方法、装置和系统制造方法及图纸

技术编号:36929176 阅读:11 留言:0更新日期:2023-03-22 18:52
本发明专利技术提供了一种互联网企业分类的方法和装置,其中该方法包括:S1:获取互联网企业的多维度数据,并对所述多维度数据预处理以生成长文本数据;S2:将所述长文本数据输入基于Transformer编码器的Bert网络模型进行处理;S3:将经过处理后的数据送入分类器来对所述互联网企业进行分类。本发明专利技术的方案基于在Transformer架构的深度神经网络中进行自动特征组合学习,能够对互联网企业准确进行行业分类,并能够极大提升互联网企业行业分类的准确率。本发明专利技术的方案能够快速将海量企业多维度信息进行识别,无需人工干预。本发明专利技术的方案基于大语料预训练模型加下游任务微调的方案能灵活应用在不同场景中海量企业的快速分类。活应用在不同场景中海量企业的快速分类。活应用在不同场景中海量企业的快速分类。

【技术实现步骤摘要】
互联网企业分类的方法、装置和系统


[0001]本专利技术属于人工智能
,具体涉及互联网企业分类的方法、装置和系统。

技术介绍

[0002]企业分类是利用企业相关信息对企业进行所处行业分类的一种技术,一般采用的是我国现行的国民经济行业分类标准。该分类标准中将行业分为了97个大类、473个中类、1380个小类。我国企业数量众多,互联网企业是中国经济结构转型升级的驱动力量,如何对这些企业进行有效的行业分类是十分有必要的,可以为我国相应的监管部门提供有效的监管基础和依据,也可以有效的解释特定的行业的发展情况以及在国民经济中所处的地位。传统的人工识别方式存在低效、主观性强的缺点,无法大规模的应用,亟需一种自动化的分类技术来对企业进行快速高效的分类。随着人工智能技术的发展,出现了一大批企业分类算法。
[0003]现有的企业分类方法大致可以分为两类:基于规则匹配的分类方法和基于机器学习的分类方法。
[0004]基于规则匹配的方法一般会事先收集企业的相关信息,用企业相关信息文本与行业分类标签做相似度计算,依据相似度计算结果进行排序,将排名第一的行业标签匹配到该企业。此类方法构建简单,只需要计算企业信息与标签的相似度分数就可以对企业进行分类,但此类方法受限于收集的企业信息的丰富程度,不同相似度的计算方法也会影响分类的准确率。此外,行业标签也存在更新情况,匹配的结果与最新的行业标准规范也会产生不准确现象。
[0005]基于机器学习的方法会收集待分类企业的文本信息,首先对文本进行清洗、分词,然后基于分词的结果做基于字、词的特征向量的提取,最后使用抽取出的特征向量训练分类器以此来对企业进行分类。此类方法相较于基于规则匹配的方法有较大的改进,由于利用到了企业信息的词向量特征,提高了企业分类的准确率。但是分类准确率仍然受到分词效果的影响,词典的收集维护也会耗费巨大的精力。此外,词向量特征的选取以及组合也是一项耗费极大精力的一项技术,特征组合的效果对最终的分类效果会产生很大的影响。
[0006]因此,现有技术需要一种能够对互联网企业进行有效分类的解决方案。
[0007]上述在背景部分公开的信息仅用于对本专利技术的背景做进一步的理解,因此它可以包含对于本领域普通技术人员已知的不构成现有技术的信息。

技术实现思路

[0008]本专利技术涉及一种互联网企业分类的方法、装置和系统。本专利技术所要解决的技术问题是针对现有企业分类维度低、准确度不高等不足,提供多维度企业信息的互联网企业分类方法及装置。本专利技术的方案能够对互联网企业进行准确的行业分类,相比于基于匹配或机器学习的企业分类算法,本专利技术专利可以极大提升互联网企业行业分类的准确率。
[0009]本专利技术的第一方面提供了一种互联网企业分类的方法,其特征在于,所述方法包
括:S1:获取互联网企业的多维度数据,并对所述多维度数据预处理以生成长文本数据;S2:将所述长文本数据输入基于Transformer编码器的Bert网络模型进行处理;S3:将经过处理后的数据送入分类器来对所述互联网企业进行分类,该分类器为所述分类器为Softmax分类器。
[0010]根据本专利技术的一个实施例,其中所述多维度包括:企业名称、主要产品和业务、企业简介和经营范围相关的数据,以及其中所述预处理将企业名称、主要产品和业务、企业简介和经营范围相关的数据进行拼接后并进行文本清洗。
[0011]根据本专利技术的一个实施例,在所述步骤S2中,将所述长文本数据前添加辅助分类特殊标记符号CLS,所述Bert网络模型模型学习所述CLS标记的特征向量;并且在所述步骤S3中,将处理后的数据中对应位置的所述CLS标记的特征向量输入所述分类器。
[0012]根据本专利技术的一个实施例,其中在所述步骤S2中,所述添加辅助分类特殊标记符号CLS包括:S21:将所述长文本按照字符进行分词后获取该字符在字典中对应的序号,并将该序号设置为该字符文本Token,并设置该字符的在文本中的位置编码Token以及文本类型Token,S22:将所述字符文本Token、位置编码Token以及文本类型Token按照位置相加,并将输入到Bert网络模型的Embedding层,并将得到的向量输入到Bert网络模型的多层自注意力层中进行特征学习。
[0013]根据本专利技术的一个实施例,其中在所述步骤S2还包括对Bert网络模型的进行训练,所述训练包括:S31:将整理好的企业数据集按预定比例分成训练集和测试集,在训练集上训练所述Bert网络模型,并对Bert网络模型中的超参数进行调整;S32:在所述测试集上计算每个企业类别的准确率及召回率,并进行Bert网络模型评估;S33:如果准确率及召回率满足预定的业务标准,则部署满足预定的业务标准的Bert网络模型;S34:如果准确率及召回率不满足预定的业务标准,则筛选出模型判断错误的样本,对错误样本纠正后进行重新标注后添加到训练集,并返回步骤S32。
[0014]根据本专利技术的一个实施例,其中,所述超参数包括批尺寸、学习率、输入文本最大长度。
[0015]根据本专利技术的一个实施例,其中在所述步骤S3中,所述分类器输出的分类为我国公布的上市企业中国民经济分类的第二级分类。
[0016]根据本专利技术的一个实施例,所述步骤S1还包括:从互联网企业信息库中获取互联网企业的多维度数据,并对所述互联网企业信息库中的全量数据进行打标;并且所述步骤S3还包括:所述Softmax分类器输出每一个互联网企业的分类数据,并输出的该分类数据的置信度。
[0017]根据本专利技术的一个实施例,在所述步骤S2中,采用集成学习的策略来对Bert网络模型进行集成学习,其中在所述集成学习中,采用Bagging算法来获得企业数据的分类标签。
[0018]根据本专利技术的一个实施例,在所述Bagging算法中,采用自助随机采样的方法从含有m个企业样本的数据集中产生T个采样,基于每个采样集独立训练出T个基学习器,其中T<m。
[0019]根据本专利技术的一个实施例,在所述Bagging算法中,采用不同采样得到的不同的训练集来训练模型后得到同质的弱分类器,并对同一个样本进行测试时输出的多个不同的基
于Bert网络模型的预测结果进行投票,以得到最终的分类预测结果。
[0020]本专利技术的第二方面提供了互联网企业分类的装置,其特征在于,所述装置包括存储器和处理器;所述存储器,用于存储计算机程序;其特征在于:所述处理器,用于当执行所述计算机程序时,实现根据上述的对互联网企业进行分类的方法。
[0021]本专利技术的第三方面提供了一种互联网企业分类系统,其特征在于,所述系统包括:数据采集和预处理模块,被配置为:采集企业数据并进行预处理,形成企业数据的长文本;分类模型的训练和测试模块,被配置为:将企业数据分为训练集和测试集,根据训练集来训练企业分类的Bert网络模型,并根据测试集评估企业Bert网络模型的分类效果;分类模型的迭代和提升模块,被配置为:对全部的企业数据进行打标,在利用Ber本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种互联网企业分类的方法,其特征在于,所述方法包括:S1:获取互联网企业的多维度数据,并对所述多维度数据预处理以生成长文本数据;S2:将所述长文本数据输入Bert网络模型进行处理;S3:将经过处理后的数据送入分类器来对所述互联网企业进行行业分类。2.根据权利要求1所述的方法,其特征在于,所述分类器为Softmax分类器。3.根据权利要求1所述的方法,其特征在于,其中所述多维度包括:企业名称、主要产品和业务、企业简介和经营范围相关的数据,以及其中所述预处理将企业名称、主要产品和业务、企业简介和经营范围相关的数据进行拼接后并进行文本清洗。4.根据权利要求1所述的方法,其特征在于,在所述步骤S2中,将所述长文本数据前添加辅助分类特殊标记符号CLS,所述Bert网络模型模型学习所述CLS标记的特征向量;并且在所述步骤S3中,将处理后的数据中对应位置的所述CLS标记的特征向量输入所述分类器。5.根据权利要求4所述的方法,其特征在于,其中在所述步骤S2中,所述添加辅助分类特殊标记符号CLS包括:S21:将所述长文本按照字符进行分词后获取该字符在分类字典中对应的序号,并将该序号设置为该字符文本Token,并设置该字符的在文本中的位置编码Token以及文本类型Token,S22:将所述字符文本Token、位置编码Token以及文本类型Token按照位置相加,并将输入到Bert网络模型的Embedding层,并将得到的向量输入到Bert网络模型的多层自注意力层中进行特征学习。6.根据权利要求1所述的方法,其特征在于,根据权利要求1所述的方法,其特征在于,其中在所述步骤S2还包括对Bert网络模型的迭代训练,所述迭代训练包括:S31:将整理好的企业数据集按预定比例分成训练集和测试集,在训练集上训练所述Bert网络模型,并对Bert网络模型中的超参数进行调整;S32:在所述测试集上计算每个企业类别的准确率及召回率,并进行Bert网络模型评估;S33:如果准确率及召回率满足预定的业务标准,则部署满足预定的业务标准的Bert网络模型;S34:如果准确率及召回率不满足预定的业务标准,则筛选出模型判断错误的样本,对错误样本纠正后进行重新标注,再将其添加到训练集,并返回步骤S32。7.根据权利要求6所述的方法,其特征在于,所述超参数包括批尺寸、学习率、输入文本最大长度。8.根据权利要求1所述的方法,其特征在于,其中在所述步骤...

【专利技术属性】
技术研发人员:李美燕吴震王秀文李娅强刘纯艳王峰刘鑫李政达陈鹏云杨菁林赵磊秦恺曾宣玮刘志丞
申请(专利权)人:长城计算机软件与系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1