一种基于词袋模型的企业挂靠产业方法技术

技术编号：39331990 阅读：13 留言：0更新日期：2023-11-12 16:07

本发明专利技术涉及行业分类领域，具体来说是一种基于词袋模型的企业挂靠产业方法，所述方法具体如下：S1词袋语料的获取，利用爬虫提取战略性新兴产业分类文件并构建初始词袋的语料，待匹配词袋的语料库同样利用爬虫取自新招股说明书的该部分文本；S2词袋的构建，使用LTP中文分词工具对语料库分词，然后通过基于正则表达式、词性标注和停用词库的规则筛选分词结果，得到基于已有文件的初始行业词袋和根据新文件生成的待匹配词袋。本发明专利技术同现有技术相比，其优点在于：本发明专利技术对样本的要求不高，不需要大量企业挂靠行业的标注数据；本发明专利技术随着科创板上市企业的增加，该方案中建立的词袋会随之自动迭代更新，逐渐提高挂靠准确率。逐渐提高挂靠准确率。逐渐提高挂靠准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词袋模型的企业挂靠产业方法

[0001]本专利技术涉及行业分类领域，具体来说是一种基于词袋模型的企业挂靠产业方法。

技术介绍

[0002]企业挂靠产业实际上是一种行业分类问题，目前行业分类技术大部分都首先针对预训练模型进行微调，利用微调后的模型将企业文本信息转化为文本向量编码，然后通过大量标注数据训练分类模型进行分类得到企业对应产业。主流行业分类技术的关注点在于如何得到优质数据对预训练模型进行微调和如何优化基于机器学习方法的分类模型，实现分类准确率的提升。
[0003]基于机器学习方法的行业分类模型需要通过大量优质标注数据进行微调和训练，然而对于建立科创属性评价体系的实际需求下，并没有大量的企业挂靠对应行业的标准标注数据，导致现有模型在该场景下的行业挂靠效果较差。

技术实现思路

[0004]本专利技术要解决的技术问题是克服现有技术的不足，提供一种利用企业招股说明书进行分词构建词袋，将词袋转化为向量后通过余弦相似度的计算，根据相似度的大小可以将企业匹配到对应产业上，便于实现企业科创属性的横向对比和评价的企业挂靠产业方法。
[0005]为了实现上述目的，设计一种基于词袋模型的企业挂靠产业方法，所述方法具体如下：
[0006]S1词袋语料的获取，利用爬虫提取战略性新兴产业分类文件并构建初始词袋的语料，待匹配词袋的语料库同样利用爬虫取自新招股说明书的该部分文本；
[0007]S2词袋的构建，使用LTP中文分词工具对语料库分词，然后通过基于正则表达式、词性标注和停用词库的...

【技术保护点】

【技术特征摘要】
1.一种基于词袋模型的企业挂靠产业方法，其特征在于所述方法具体如下：S1词袋语料的获取，利用爬虫提取战略性新兴产业分类文件并构建初始词袋的语料，待匹配词袋的语料库同样利用爬虫取自新招股说明书的该部分文本；S2词袋的构建，使用LTP中文分词工具对语料库分词，然后通过基于正则表达式、词性标注和停用词库的规则筛选分词结果，得到基于已有文件的初始行业词袋和根据新文件生成的待匹配词袋；S3根据词袋生成词袋向量，假设某一行业的初始词袋WordBag1包含k个词汇{word
11
,word
12
,...,word
1k
}，每个词汇的词频为{num
11
,num
12
,...,num
1k
}。现对某拟上市企业的新招股说明书分词筛选处理后，得到待匹配词袋WordBag0，该词袋包含m个词汇{word
21
,word
22
,...,word
2m
}，每个词汇的词频为{num
21
,num
22
,...,num
2m
}；S3.1先将WordBag1与WordBag0合并后去重，得到两个词袋的并集WordBag
all
。不妨设这个并集包含n个词汇{word
31
,word
32
,...,word
3n
}，其中n≥k且n≥m，并集词袋向量表示为Vec
all
＝[word
31
,word
32
,...,word
3n
]；S3.2 WordBag1和WordBag0作为这个并集的两个子集，各包含有该并集中的部分词汇。对于WordBag1，在Vec
all
...

【专利技术属性】
技术研发人员：朱泽阳，王树声，王忠，余勇，费永建，
申请(专利权)人：上交所技术有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人