一种企业三级行业多标签分类方法技术

技术编号：36336275 阅读：18 留言：0更新日期：2023-01-14 17:48

本发明专利技术公开一种企业三级行业多标签分类方法，该方法利用TextRank算法获得企业经营范围关键词；利用K

全部详细技术资料下载

【技术实现步骤摘要】
一种企业三级行业多标签分类方法

[0001]本专利技术属于自然语言处理
，具体涉及企业文本数据集标注，以及利用层次多标签分类模型，对企业进行国民经济行业三级行业分类方法。

技术介绍

[0002]目前，市面上各大企业信息查询系统对企业的行业划分不够准确，过于笼统，因此产学研相关工作人员无法有效地参照所查询的企业行业信息，对企业进行行业划分，他们往往通过人工方式，判别企业的行业属性，这极大地降低了工作效率。为了解决人工分类的繁琐问题，同时更好地表征企业的多个行业属性，需要采用多标签分类算法对企业进行行业分类。此外由于企业经营范围文本中隐含行业细分信息，它是由企业拟定，由当地市场监督局参照《国民经济行业分类代码表》核定的文本，对企业的行业类型判断具有很强的参考价值。因此根据企业经营范围，利用多标签分类算法，对企业进行国民经济行业多标签分类具有重要研究意义。
[0003]企业行业分类是文本分类领域中一个重要应用。常见的分类方法有传统机器学习方法和深度学习方法，其中机器学习方法有支持向量机、决策树、ML
‑
KNN等，深度学习方法有TextCNN、LSTM、SGM、Bert等模型；采用机器学习方法分类准确率不高，且需要人工参与；采用深度学习方法，由于没有充分考虑行业标签的层次化特征，分类准确率并没有明显提升。
[0004]根据国家统计局在2017年颁布的《国民经济行业分类》得知，行业类别一共有20个一级行业，细分为97个二级行业，又细分为473个三级行业，其中一个一级行业包含若干个二级行业...

【技术保护点】

【技术特征摘要】
1.一种企业三级行业多标签分类方法，其特征在于，包括以下步骤：步骤1：利用TextRank算法，获得企业经营范围关键词；根据企业经营范围关键词利用K
‑
means算法，将语义相近的若干关键词聚为一类形成主题词类；步骤2：将主题词类词向量与国民经济行业类别向量进行相似度计算，根据计算结果设置合理的匹配阈值，将高于该阈值的类别进行自动匹配；步骤3：将标注好的数据集，输入层次多标签分类模型HFT
‑
ONLSTM中进行模型训练，并根据训练结果调整各层网络参数。2.根据权利要求1所述的企业三级行业多标签分类方法，其特征在于：步骤1所述利用TextRank算法获得企业经营范围关键词：利用中文分词库jieba中的textrank模块，从企业经营范围文本中提取关键词，记为：key
p
＝[w
p,1
,w
p,2
,
…
,w
p,m
]其中，key
p
表示第p级的国民经济行业的关键词，p表示第p级的国民经济行业类别，且p∈[1,2,3]，w
p,m
表示第p级的国民经济行业类别的第m个关键词；步骤1所述根据企业经营范围关键词利用K
‑
means算法，将语义相近的若干关键词聚为一类形成主题词类：读取企业经营范围关键词词向量[x1,x2,
…
,x
m
]，并随机初始化K个聚类中心；根据距离公式计算关键词距离每个聚类中心的距离，对每个关键词进行类别划分，选取距离最小的聚类中心作为该类关键词的主题词类；根据聚类结果，计算每类关键词距离聚类中心的距离之和，计算聚类误差平方和，记为SSE：其中k表示类别数，c
v
表示第v个类，U
v
表示c
v
的聚类中心。3.根据权利要求1所述的企业三级行业多标签分类方法，其特征在于：步骤2所述将主题词类词向量与国民经济行业类别向量进行相似度计算：主题词类集合为C＝{c1,c2,
…
,c
m
}，某类c
v
下主题词为：对应的词向量记为：该主题词类向量记为：其中n表示主题词类v下有n个主题词，表示第v个主题词类下第j个主题词向量；计算国民经济行业类别向量，记为：
其中，表...

【专利技术属性】
技术研发人员：刘文达，杨焕晨，董帅杰，马光严，李微，
申请(专利权)人：三螺旋大数据科技昆山有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人