【技术实现步骤摘要】
一种企业三级行业多标签分类方法
[0001]本专利技术属于自然语言处理
,具体涉及企业文本数据集标注,以及利用层次多标签分类模型,对企业进行国民经济行业三级行业分类方法。
技术介绍
[0002]目前,市面上各大企业信息查询系统对企业的行业划分不够准确,过于笼统,因此产学研相关工作人员无法有效地参照所查询的企业行业信息,对企业进行行业划分,他们往往通过人工方式,判别企业的行业属性,这极大地降低了工作效率。为了解决人工分类的繁琐问题,同时更好地表征企业的多个行业属性,需要采用多标签分类算法对企业进行行业分类。此外由于企业经营范围文本中隐含行业细分信息,它是由企业拟定,由当地市场监督局参照《国民经济行业分类代码表》核定的文本,对企业的行业类型判断具有很强的参考价值。因此根据企业经营范围,利用多标签分类算法,对企业进行国民经济行业多标签分类具有重要研究意义。
[0003]企业行业分类是文本分类领域中一个重要应用。常见的分类方法有传统机器学习方法和深度学习方法,其中机器学习方法有支持向量机、决策树、ML
‑
KNN等,深度学习方法有TextCNN、LSTM、SGM、Bert等模型;采用机器学习方法分类准确率不高,且需要人工参与;采用深度学习方法,由于没有充分考虑行业标签的层次化特征,分类准确率并没有明显提升。
[0004]根据国家统计局在2017年颁布的《国民经济行业分类》得知,行业类别一共有20个一级行业,细分为97个二级行业,又细分为473个三级行业,其中一个一级行业包含若干个二级行业 ...
【技术保护点】
【技术特征摘要】
1.一种企业三级行业多标签分类方法,其特征在于,包括以下步骤:步骤1:利用TextRank算法,获得企业经营范围关键词;根据企业经营范围关键词利用K
‑
means算法,将语义相近的若干关键词聚为一类形成主题词类;步骤2:将主题词类词向量与国民经济行业类别向量进行相似度计算,根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配;步骤3:将标注好的数据集,输入层次多标签分类模型HFT
‑
ONLSTM中进行模型训练,并根据训练结果调整各层网络参数。2.根据权利要求1所述的企业三级行业多标签分类方法,其特征在于:步骤1所述利用TextRank算法获得企业经营范围关键词:利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,记为:key
p
=[w
p,1
,w
p,2
,
…
,w
p,m
]其中,key
p
表示第p级的国民经济行业的关键词,p表示第p级的国民经济行业类别,且p∈[1,2,3],w
p,m
表示第p级的国民经济行业类别的第m个关键词;步骤1所述根据企业经营范围关键词利用K
‑
means算法,将语义相近的若干关键词聚为一类形成主题词类:读取企业经营范围关键词词向量[x1,x2,
…
,x
m
],并随机初始化K个聚类中心;根据距离公式计算关键词距离每个聚类中心的距离,对每个关键词进行类别划分,选取距离最小的聚类中心作为该类关键词的主题词类;根据聚类结果,计算每类关键词距离聚类中心的距离之和,计算聚类误差平方和,记为SSE:其中k表示类别数,c
v
表示第v个类,U
v
表示c
v
的聚类中心。3.根据权利要求1所述的企业三级行业多标签分类方法,其特征在于:步骤2所述将主题词类词向量与国民经济行业类别向量进行相似度计算:主题词类集合为C={c1,c2,
…
,c
m
},某类c
v
下主题词为:对应的词向量记为:该主题词类向量记为:其中n表示主题词类v下有n个主题词,表示第v个主题词类下第j个主题词向量;计算国民经济行业类别向量,记为:
其中,表...
【专利技术属性】
技术研发人员:刘文达,杨焕晨,董帅杰,马光严,李微,
申请(专利权)人:三螺旋大数据科技昆山有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。