一种企业三级行业多标签分类方法技术

技术编号:36336275 阅读:18 留言:0更新日期:2023-01-14 17:48
本发明专利技术公开一种企业三级行业多标签分类方法,该方法利用TextRank算法获得企业经营范围关键词;利用K

【技术实现步骤摘要】
一种企业三级行业多标签分类方法


[0001]本专利技术属于自然语言处理
,具体涉及企业文本数据集标注,以及利用层次多标签分类模型,对企业进行国民经济行业三级行业分类方法。

技术介绍

[0002]目前,市面上各大企业信息查询系统对企业的行业划分不够准确,过于笼统,因此产学研相关工作人员无法有效地参照所查询的企业行业信息,对企业进行行业划分,他们往往通过人工方式,判别企业的行业属性,这极大地降低了工作效率。为了解决人工分类的繁琐问题,同时更好地表征企业的多个行业属性,需要采用多标签分类算法对企业进行行业分类。此外由于企业经营范围文本中隐含行业细分信息,它是由企业拟定,由当地市场监督局参照《国民经济行业分类代码表》核定的文本,对企业的行业类型判断具有很强的参考价值。因此根据企业经营范围,利用多标签分类算法,对企业进行国民经济行业多标签分类具有重要研究意义。
[0003]企业行业分类是文本分类领域中一个重要应用。常见的分类方法有传统机器学习方法和深度学习方法,其中机器学习方法有支持向量机、决策树、ML

KNN等,深度学习方法有TextCNN、LSTM、SGM、Bert等模型;采用机器学习方法分类准确率不高,且需要人工参与;采用深度学习方法,由于没有充分考虑行业标签的层次化特征,分类准确率并没有明显提升。
[0004]根据国家统计局在2017年颁布的《国民经济行业分类》得知,行业类别一共有20个一级行业,细分为97个二级行业,又细分为473个三级行业,其中一个一级行业包含若干个二级行业,一个二级行业又包括若干个三级行业,行业类别呈层次化结构。为了更好地利用这一特征,采用层次多标签分类HFT

ONLSTM模型,实现企业的三级行业多标签分类,有效地提高了企业行业分类的准确率。

技术实现思路

[0005]本专利技术的目的在于首先提出了一种用于企业经营范围数据集自动化标注方法;然后利用层次多标签分类算法,对企业进行国民经济行业三级行业多标签,以解决上述
技术介绍
中提及的现有技术,没有充分考虑行业标签的层次化结构特征,造成分类准确率不高问题。
[0006]为了实现上述目的,本专利技术提供如下技术方案:一种企业三级行业多标签分类方法,包括以下步骤:
[0007]步骤1:利用TextRank算法,获得企业经营范围关键词;根据企业经营范围关键词利用K

means算法,将语义相近的若干关键词聚为一类形成主题词类;
[0008]步骤2:将主题词类词向量与国民经济行业类别向量进行相似度计算,根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配;
[0009]步骤3:将标注好的数据集,输入层次多标签分类模型HFT

ONLSTM中进行模型训
练,并根据训练结果调整各层网络参数。
[0010]优选的,步骤1所述利用TextRank算法获得企业经营范围关键词:
[0011]利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,记为:key
p
=[w
p,1
,w
p,2
,

,w
p,m
][0012]其中,key
p
表示第p级的国民经济行业的关键词,p表示第p级的国民经济行业类别,且p∈[1,2,3],w
p,m
表示第p级的国民经济行业类别的第m个关键词。
[0013]步骤1所述根据企业经营范围关键词利用K

means算法,将语义相近的若干关键词聚为一类形成主题词类:
[0014]读取企业经营范围关键词词向量[x1,x2,

,x
m
],并随机初始化K个聚类中心;
[0015]根据距离公式计算关键词距离每个聚类中心的距离,对每个关键词进行类别划分,选取距离最小的聚类中心作为该类关键词的主题词类;
[0016]根据聚类结果,计算每类关键词距离聚类中心的距离之和,计算聚类误差平方和,记为SSE:
[0017][0018]其中k表示类别数,c
v
表示第v个类,U
v
表示c
v
的聚类中心。
[0019]从聚类结果可以看出能将各个语义相近的企业经营范围关键词聚为一类,比如“宠物美容,康复训练,康复保健”都和卫生医疗相关,“货物道路运输,铁路客运,物流服务”都和交通运输有关。
[0020]优选的,步骤2所述将主题词类词向量与国民经济行业类别向量进行相似度计算:
[0021]主题词类集合为C={c1,c2,

,c
m
},某类c
v
下主题词为:
[0022][0023]对应的词向量记为:
[0024][0025]该主题词类向量记为:
[0026][0027]其中n表示主题词类v下有n个主题词,表示第v个主题词类下第j个主题词向量。
[0028]同理,可以计算国民经济行业类别向量,记为:
[0029][0030]其中,表示国民经济行业类别对应的词向量。
[0031]计算主题词类向量与国民经济行业类别向量之间相似度,记为:
[0032][0033]其中,表示经过聚类后的主题类词向量,表示国民经济行业类别对应的词向量。
[0034]步骤2所述根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配:
[0035]通过计算每个主题词类与国民经济行业类别之间的相似度对两者进行匹配,根据计算结果设置匹配阈值为0.7;
[0036]将与主题词相似度高于0.7的国民经济行业类别,选择相似度最高的作为该主题词对应的行业类别。
[0037]至此,实现了企业经营范围数据集自动化标注工作。
[0038]优选的,步骤3所述将企业经营范围词向量输入层次多标签分类模型HFT

ONLSTM中进行模型训练:
[0039]由于国民经济行业的一个一级行业类别包含若干个二级行业类别,一个二级行业类别又包含若干个三级行业类别,行业类别标签呈树状的层次化结构;
[0040]于是定义表示企业经营范围主题词类x
i
对应的各层行业类别总和,表示主题词类x
i
对应某一层上的行业标签类别;
[0041]定义z
i,j
表示主题词类x
i
在第j层上的行业类别,z
i,j
记为:
[0042][0043]采用分层微调技术,将某些层的训练参数从较高层向相应的较低层过渡,由于国民经济行业各层类别层次化特征,且预训练和目标任务之间存在高度相关性;
[0044]分层训练是通过子类层训练过程中重用父类层训练的网络参数,以加快训练速度和提高分层分类性能。
[0045]将企业经营范本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业三级行业多标签分类方法,其特征在于,包括以下步骤:步骤1:利用TextRank算法,获得企业经营范围关键词;根据企业经营范围关键词利用K

means算法,将语义相近的若干关键词聚为一类形成主题词类;步骤2:将主题词类词向量与国民经济行业类别向量进行相似度计算,根据计算结果设置合理的匹配阈值,将高于该阈值的类别进行自动匹配;步骤3:将标注好的数据集,输入层次多标签分类模型HFT

ONLSTM中进行模型训练,并根据训练结果调整各层网络参数。2.根据权利要求1所述的企业三级行业多标签分类方法,其特征在于:步骤1所述利用TextRank算法获得企业经营范围关键词:利用中文分词库jieba中的textrank模块,从企业经营范围文本中提取关键词,记为:key
p
=[w
p,1
,w
p,2
,

,w
p,m
]其中,key
p
表示第p级的国民经济行业的关键词,p表示第p级的国民经济行业类别,且p∈[1,2,3],w
p,m
表示第p级的国民经济行业类别的第m个关键词;步骤1所述根据企业经营范围关键词利用K

means算法,将语义相近的若干关键词聚为一类形成主题词类:读取企业经营范围关键词词向量[x1,x2,

,x
m
],并随机初始化K个聚类中心;根据距离公式计算关键词距离每个聚类中心的距离,对每个关键词进行类别划分,选取距离最小的聚类中心作为该类关键词的主题词类;根据聚类结果,计算每类关键词距离聚类中心的距离之和,计算聚类误差平方和,记为SSE:其中k表示类别数,c
v
表示第v个类,U
v
表示c
v
的聚类中心。3.根据权利要求1所述的企业三级行业多标签分类方法,其特征在于:步骤2所述将主题词类词向量与国民经济行业类别向量进行相似度计算:主题词类集合为C={c1,c2,

,c
m
},某类c
v
下主题词为:对应的词向量记为:该主题词类向量记为:其中n表示主题词类v下有n个主题词,表示第v个主题词类下第j个主题词向量;计算国民经济行业类别向量,记为:
其中,表...

【专利技术属性】
技术研发人员:刘文达杨焕晨董帅杰马光严李微
申请(专利权)人:三螺旋大数据科技昆山有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1