【技术实现步骤摘要】
一种基于语义理解模型的行业经济活动分类方法及系统
[0001]本专利技术涉及行业分类的
,尤其涉及一种基于语义理解模型的行业经济活动分类方法及系统。
技术介绍
[0002]随着经济快速发展,各种企业如雨后春笋般冒了出来,而企业的经营范围又涉及成百上千的商品,而将公司商品划分到所对应的经济活动划分到国家经济行业分类表中,这将有助于决定公司后续的发展方向,而将商品划分到国民经济行业分类中是一大难题。
[0003]现有的解决方法一般是基于人工分类,或者使用机器进行分类,而机器分类普遍是将字、词与行业分类表进行匹配,按照相似度的大小来决定分类结果,这使得匹配结果往往浮于表面,而现实生活中,经济活动名称具有多元性,不同的词可以表示同一个语义,同一个词在不同环境中可以表示两个不同的事物,这是分类任务中一大难点。
[0004]针对现有技术存在的问题,本专利技术提出了一种基于语义理解模型的行业经济活动分类方法及系统。
技术实现思路
[0005]本专利技术的目的是针对现有技术的缺陷,提供了一种基于语义理解 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义理解模型的行业经济活动分类方法,其特征在于,包括:S1.获取各个行业经济活动与主营产品相对应的数据集;S2.取出数据集中的无效数据,并将数据集按照国民行业分类表进行分类;S3.输入分类好的数据集中的产业经济活动,并提取产业经济活动中的关键字,使用相似度匹配算法从国民经济行业分类表和数据集中选出候选行业分类词集、伪候选行业分类词集;S4.将输入的经济活动与候选行业分类词集、伪候选行业分类词集输入到预设的BERT模型中,并通过softmax分类器输出分类结果;S5.建立以国民经济行业分类表与训练集内容为主的词典,将输出的分类结果与词典中的内容进行匹配,输出最后的结果。2.根据权利要求1所述的一种基于语义理解模型的行业经济活动分类方法,其特征在于,所述步骤S2具体为:S21.对获取的数据集中的数据进行清洗,删除数据中的无效信息;S22.按照国民经济行业分类表的信息,将清洗后的数据划分到国民经济行业分类表中的小类作为输出;S23.将数据集划分为训练集、测试集与验证集。3.根据权利要求1所述的一种基于语义理解模型的行业经济活动分类方法,其特征在于,所述步骤S3具体为:S31.使用TextRank算法对数据集中的产业经济活动进行关键字提取;S32.对提取出的关键字使用Jaccard相似度算法,选出候选行业分类词集、伪候选行业分类词集。4.根据权利要求3所述的一种基于语义理解模型的行业经济活动分类方法,其特征在于,所述步骤S31中使用TextRank算法进行关键字提取,表示为:其中,WS(V
i
)表示短语i的权重;W
ji
表示两个句子j与句子i的相似度;WS(V
j
)表示上次迭代出的短语j的权重;d表示阻尼系数;W
jk
表示句子j与句子k的相似度;V
k
表示句子k的节点系数。5.根据权利要求1所述的一种基于语义理解模型的行业经济活动分类方法,其特征在于,所述步骤S4具体为:S41.将输入的经济活动与候选行业分类词进行组合,采用语句对分类任务SEP进行分隔,并通过单文本分类任务CLS进行分类后得到输入信息,所述输入信息作为下一个全连接层的输入;S42.将得到的输入...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。