一种基于词袋模型的企业挂靠产业方法技术

技术编号:39331990 阅读:13 留言:0更新日期:2023-11-12 16:07
本发明专利技术涉及行业分类领域,具体来说是一种基于词袋模型的企业挂靠产业方法,所述方法具体如下:S1词袋语料的获取,利用爬虫提取战略性新兴产业分类文件并构建初始词袋的语料,待匹配词袋的语料库同样利用爬虫取自新招股说明书的该部分文本;S2词袋的构建,使用LTP中文分词工具对语料库分词,然后通过基于正则表达式、词性标注和停用词库的规则筛选分词结果,得到基于已有文件的初始行业词袋和根据新文件生成的待匹配词袋。本发明专利技术同现有技术相比,其优点在于:本发明专利技术对样本的要求不高,不需要大量企业挂靠行业的标注数据;本发明专利技术随着科创板上市企业的增加,该方案中建立的词袋会随之自动迭代更新,逐渐提高挂靠准确率。逐渐提高挂靠准确率。逐渐提高挂靠准确率。

【技术实现步骤摘要】
一种基于词袋模型的企业挂靠产业方法


[0001]本专利技术涉及行业分类领域,具体来说是一种基于词袋模型的企业挂靠产业方法。

技术介绍

[0002]企业挂靠产业实际上是一种行业分类问题,目前行业分类技术大部分都首先针对预训练模型进行微调,利用微调后的模型将企业文本信息转化为文本向量编码,然后通过大量标注数据训练分类模型进行分类得到企业对应产业。主流行业分类技术的关注点在于如何得到优质数据对预训练模型进行微调和如何优化基于机器学习方法的分类模型,实现分类准确率的提升。
[0003]基于机器学习方法的行业分类模型需要通过大量优质标注数据进行微调和训练,然而对于建立科创属性评价体系的实际需求下,并没有大量的企业挂靠对应行业的标准标注数据,导致现有模型在该场景下的行业挂靠效果较差。

技术实现思路

[0004]本专利技术要解决的技术问题是克服现有技术的不足,提供一种利用企业招股说明书进行分词构建词袋,将词袋转化为向量后通过余弦相似度的计算,根据相似度的大小可以将企业匹配到对应产业上,便于实现企业科创属性的横向对比和评价的企业挂靠产业方法。
[0005]为了实现上述目的,设计一种基于词袋模型的企业挂靠产业方法,所述方法具体如下:
[0006]S1词袋语料的获取,利用爬虫提取战略性新兴产业分类文件并构建初始词袋的语料,待匹配词袋的语料库同样利用爬虫取自新招股说明书的该部分文本;
[0007]S2词袋的构建,使用LTP中文分词工具对语料库分词,然后通过基于正则表达式、词性标注和停用词库的规则筛选分词结果,得到基于已有文件的初始行业词袋和根据新文件生成的待匹配词袋;
[0008]S3根据词袋生成词袋向量,假设某一行业的初始词袋WordBag1包含k个词汇{word
11
,word
12
,...,word
1k
},每个词汇的词频为{num
11
,num
12
,...,num
1k
}。现对某拟上市企业的新招股说明书分词筛选处理后,得到待匹配词袋WordBag0,该词袋包含m个词汇{word
21
,word
22
,...,word
2m
},每个词汇的词频为{num
21
,num
22
,...,num
2m
};
[0009]S3.1先将WordBag1与WordBag0合并后去重,得到两个词袋的并集WordBag
all
。不妨设这个并集包含n个词汇{word
31
,word
32
,...,word
3n
},其中n≥k且n≥m,并集词袋向量表示为Vec
all
=[word
31
,word
32
,...,word
3n
];
[0010]S3.2WordBag1和WordBag0作为这个并集的两个子集,各包含有该并集中的部分词汇。对于WordBag1,在Vec
all
中使用的词频填充替换对应位置的词汇,得到n维词袋向量Vecbag1=[num
11
,...,0,...,num
1k
,...,0,...];对于WordBag0,在Vec
all
中使用1填充替换对应位置的词汇,在Vec
all
中不包含于WordBag0的词汇则用0填充替换,得到n维词袋向量
Vec
bag0
=[...,1,...,0,...,1,...,0];
[0011]S4利用步骤S3提出的词袋向量生成方法,通过计算词袋向量的余弦相似度,将得到待匹配词袋与六大行业初始词袋的相似度结果,最后对结果进行筛选得到挂靠行业结果。
[0012]本专利技术还具有如下优选的技术方案:
[0013]1.所述步骤S2具体如下:
[0014]S2.1使用分词工具LTP的词性标注功能,只保留名词和动词词性的词语;
[0015]S2.2使用正则表达式去除所有的标点符号和纯数字内容进一步除杂降噪;
[0016]S2.3使用停用词库,过滤停用词。
[0017]2.所述步骤S4具体如下:
[0018]设降序排序后的相似度为cos1、cos2、cos3、cos4、cos5、cos6,对应于行业Lab1、行业Lab2、行业Lab3、行业Lab4、行业Lab5、行业Lab6。首先,将相似度最高的行业,即cos1对应的Lab1,作为该公司的行业标签label1。其次,对于非相似度最高的行业,若它们跟Lab1的相似度差值不大,则可以作为该公司的行业标签label2或label3。在该设计中,最多只能记录到label3,而相似度差值不大则需满足以下公式:
[0019][0020]在经过以上计算、筛选的流程后,得到的一到三个行业标签,即是所需的拟上市企业挂靠行业的结果。
[0021]3.还包括步骤S5:
[0022]引入专业人员进行判定,如果对于某拟上市企业的新招股说明书,企业挂靠行业结果准确且合理,将该招股书文件语料库加入步骤S2的初始语料库中,以实现初始词袋的更新。
[0023]本专利技术同现有技术相比,其优点在于:
[0024]1.本专利技术对样本的要求不高,不需要大量企业挂靠行业的标注数据;
[0025]2.本专利技术随着科创板上市企业的增加,该方案中建立的词袋会随之自动迭代更新,逐渐提高挂靠准确率;
[0026]3.本专利技术不需要大量标注数据训练即可实现自动快速识别企业所属行业;
[0027]4.本专利技术建立了可自动更新迭代的模型,随着科创板上市企业的增加,词袋会随之自动迭代更新,企业挂靠产业的准确率会逐渐提升。
附图说明
[0028]图1是本专利技术的整体框架图;
[0029]图2是本专利技术的词袋向量生成示意图;
[0030]图3是本专利技术的相似度计算结果筛选示意图。
具体实施方式
[0031]下面结合附图对本专利技术作进一步说明,本专利技术的结构和原理对本专业的人来说是非常清楚的。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本发
明。
[0032]本专利技术提出了一种基于词袋模型的企业挂靠产业方法,整体框架如图1所示。该方法利用企业的招股说明书,提取所需内容(语料)进行分词构建词袋,将词袋转化为词袋向量后,通过计算向量的余弦相似度来判定一个企业属于科创板六大行业中的一个或多个行业。详细步骤如下:
[0033]步骤1:词袋语料的获取。首先基于《战略性新兴产业分类(2018)》文件,并对标科创板六大行业,将初始语料库分为新一代信息技术、高端装备制造、新材料、新能源、生物医药、节能环保六大行业,其中新能源汽车归属于节能环保。利用爬虫提取构建初始词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词袋模型的企业挂靠产业方法,其特征在于所述方法具体如下:S1词袋语料的获取,利用爬虫提取战略性新兴产业分类文件并构建初始词袋的语料,待匹配词袋的语料库同样利用爬虫取自新招股说明书的该部分文本;S2词袋的构建,使用LTP中文分词工具对语料库分词,然后通过基于正则表达式、词性标注和停用词库的规则筛选分词结果,得到基于已有文件的初始行业词袋和根据新文件生成的待匹配词袋;S3根据词袋生成词袋向量,假设某一行业的初始词袋WordBag1包含k个词汇{word
11
,word
12
,...,word
1k
},每个词汇的词频为{num
11
,num
12
,...,num
1k
}。现对某拟上市企业的新招股说明书分词筛选处理后,得到待匹配词袋WordBag0,该词袋包含m个词汇{word
21
,word
22
,...,word
2m
},每个词汇的词频为{num
21
,num
22
,...,num
2m
};S3.1先将WordBag1与WordBag0合并后去重,得到两个词袋的并集WordBag
all
。不妨设这个并集包含n个词汇{word
31
,word
32
,...,word
3n
},其中n≥k且n≥m,并集词袋向量表示为Vec
all
=[word
31
,word
32
,...,word
3n
];S3.2 WordBag1和WordBag0作为这个并集的两个子集,各包含有该并集中的部分词汇。对于WordBag1,在Vec
all
...

【专利技术属性】
技术研发人员:朱泽阳王树声王忠余勇费永建
申请(专利权)人:上交所技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1