一种基于文本相似度的企业行业识别系统及识别方法技术方案

技术编号:32459162 阅读:12 留言:0更新日期:2022-02-26 08:44
本发明专利技术公开一种基于文本相似度的企业行业识别系统及识别方法,包括数据预处理模块、数据抽样模块、同义词扩展模块、向量空间转换模块、数据标注模块和行业识别模块,所述数据预处理模块用于对文本进行预处理和生成动词及名词词袋,所述数据抽样模块用于抽样读取统一社会信用代码数据库部分数据,所述同义词扩展模块用于对抽样数据和国民经济行业分类数据进行同义词扩展;本发明专利技术对数据进行了同义词扩展,提高相似度比较的精确度,采用随机抽样技术,从社会统一信用代码数据库中抽取少量数据并将其与国民经济行业分类标准数据进行相似度对比,抽样数据量小于未抽样数据,有效提高行业识别的整体效率。高行业识别的整体效率。高行业识别的整体效率。

【技术实现步骤摘要】
一种基于文本相似度的企业行业识别系统及识别方法


[0001]本专利技术涉及数据处理
,尤其涉及一种基于文本相似度的企业行业识别系统及识别方法。

技术介绍

[0002]统一社会信用代码库包含了法人如公司的基本信息,但其中企业的“经营范围”字段由企业自行录入,存在着不规范现象,不能直接获得其所属行业,为后续进行分行业的分析和统计带来困难,而国家目前已经发布了国民经济行业标准,通过对统一社会信用代码库中的企业“经营范围”文本数据与标准中的企业经营范围文本数据进行对比,可以确定其行业范围;
[0003]目前文本相似度计算的方法很多,主要可以分为基于词语距离的方法、基于词袋的方法和基于本体的方法,但企业经营范围数据具有特殊性,短文本由于其包含信息较少,直接进行相似度计算精度低;企业数据过多,逐一与国标数据对比,速度慢;统一社会信用代码库中的各企业的经营范围用词不规范造成识别困难或无法识别,因此,本专利技术提出一种基于文本相似度的企业行业识别系统及识别方法以解决现有技术中存在的问题。

技术实现思路

[0004]针对上述问题,本专利技术的目的在于提出一种基于文本相似度的企业行业识别系统及识别方法,该基于文本相似度的企业行业识别系统及识别方法对数据进行了同义词扩展,提高相似度比较的精确度,采用随机抽样技术,从社会统一信用代码数据库中抽取少量数据并将其与国民经济行业分类标准数据进行相似度对比,抽样数据量小于未抽样数据,有效提高行业识别的整体效率。
[0005]为实现本专利技术的目的,本专利技术通过以下技术方案实现:一种基于文本相似度的企业行业识别系统,包括数据预处理模块、数据抽样模块、同义词扩展模块、向量空间转换模块、数据标注模块和行业识别模块,所述数据预处理模块用于对文本进行预处理和生成动词及名词词袋,所述数据抽样模块用于抽样读取统一社会信用代码数据库部分数据,所述同义词扩展模块用于对抽样数据和国民经济行业分类数据进行同义词扩展,所述向量空间转换模块用于将同义词扩展后的数据和未抽样数据通过词嵌入转换到一向量空间,所述数据标注模块用于计算抽样后数据中企业经营范围字段与国民经济行业企业经营范围描述数据间的相似度并进行标注,所述行业识别模块用于对标注后的数据使用机器学习算法进行训练并对未标注社会统一信用代码数据利用训练得到的分类模型获得其行业类别。
[0006]进一步改进在于:所述数据预处理模块对文本预处理时将文本数据中的标点符号、停用词和分词全部去除,所述数据预处理模块生成动词及名词词袋对数据进行词性标注后只保留动词和名词。
[0007]进一步改进在于:所述数据抽样模块是根据用户设定的抽样比例随机抽取统一社会信用代码数据库中的部分数据,采用随机抽样技术,抽样数据量小于未抽样数据,有效提
高行业识别的整体效率。
[0008]进一步改进在于:所述同义词扩展模块通过同义词林数据库对抽样后数据和国民经济行业分类数据中的词按用户设定数量检索对应数量的与其最相似的词并加入数据库中;
[0009]所述向量空间转换模块通过word2vec词嵌入算法将数据转换到一向量空间。
[0010]进一步改进在于:所述数据标注模块对每一条抽样后数据逐条计算其经营范围字段与每一条国民经济行业经济数据的余弦相似度;
[0011]找到一个以上相似度高于预设阈值的国民经济行业,则将该企业行业标注为属于该行业;
[0012]未找到高于预设阈值的国民经济行业,则采用人工进行标注。
[0013]进一步改进在于:所述行业识别模块在对完成标注的进行词嵌后的统一社会信用代码企业经营范围数据和国民经济行业分类数据使用XGboost分类算法进行训练;对进行词嵌后的未抽样样本使用训练得到的XGboost模型识别其行业类别。
[0014]一种基于文本相似度的企业行业识别系统的识别方法,包括以下步骤:
[0015]步骤一、将统一社会信用代码数据库和国民经济行业分类数据库输入数据预处理模块进行标点符号、停用词和分词去除处理,然后进行词性标注并保留动词和名词;
[0016]步骤二、先设定抽样比例,利用数据抽样模块按照设定的抽样比例对统一社会信用代码进行随机抽样,提取少量的抽样数据形成训练集;
[0017]步骤三、将抽样的数据集和国民经济行业分类数据中的动词和名词的近义词及同义词纳入计算范围内,并采用下载的同义词林数据,根据用户设定的同义词个数,对数据预处理模块中获得的动词和名词逐一选择与其最相似的多个同义词并存入数据库中;
[0018]步骤四、使用word2vec词嵌入算法将单词数据转换到一个向量空间;
[0019]步骤五、利用数据抽样模块对统一社会信用代码数据进行自动和手动标注;
[0020]步骤六、利用步骤二中的训练集使用机器学习算法进行训练,再使用训练好的模型自动识别未抽样统一社会信用代码数据的行业类别并输出识别结果。
[0021]进一步改进在于:所述步骤五中从抽样后的统一社会信用代码数据中按顺序取转换到向量空间中的数据,将该数据与国民经济行业分类数据逐一计算余弦距离,当相似度高于用户设定的阈值,则将该数据标注为属于该行业;当与所有的行业数据相似度都低于阈值,则转人工标注。
[0022]本专利技术的有益效果为:本专利技术采用随机抽样技术,从社会统一信用代码数据库中抽取少量数据并将其与国民经济行业分类标准数据进行相似度对比,抽样数据量小于未抽样数据,有效提高行业识别的整体效率;
[0023]本专利技术对词袋中的动词和名词进行同义词扩展,将原有词汇语义相同和近似的词加入数据库,实现在统一社会信用代码数据用词不规范情况下仍然找到与其语义近似的行业;
[0024]本专利技术将行业自动识别这一问题分为少量数据半自动标注与大量数据机器学习相结合的方式,在保证行业识别准确率的同时提高行业识别的效率。
附图说明
[0025]图1为本专利技术实施例一系统结构图。
[0026]图2为本专利技术实施例二方法流程图。
[0027]图3为本专利技术实施例二步骤一数据预处理流程图。
[0028]图4为本专利技术实施例二步骤五标注流程图。
具体实施方式
[0029]为了加深对本专利技术的理解,下面将结合实施例对本专利技术做进一步详述,本实施例仅用于解释本专利技术,并不构成对本专利技术保护范围的限定。
[0030]实施例一
[0031]根据图1所示,本实施例提供了一种基于文本相似度的企业行业识别系统,包括数据预处理模块、数据抽样模块、同义词扩展模块、向量空间转换模块、数据标注模块和行业识别模块,所述数据预处理模块用于对文本进行预处理和生成动词及名词词袋,所述数据抽样模块用于抽样读取统一社会信用代码数据库部分数据,所述同义词扩展模块用于对抽样数据和国民经济行业分类数据进行同义词扩展,所述向量空间转换模块用于将同义词扩展后的数据和未抽样数据通过词嵌入转换到一向量空间,所述数据标注模块用于计算抽样后数据中企业经营范围字段与国民经济行业企业经营范围描述数据间的相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本相似度的企业行业识别系统,其特征在于:包括数据预处理模块、数据抽样模块、同义词扩展模块、向量空间转换模块、数据标注模块和行业识别模块,所述数据预处理模块用于对文本进行预处理和生成动词及名词词袋,所述数据抽样模块用于抽样读取统一社会信用代码数据库部分数据,所述同义词扩展模块用于对抽样数据和国民经济行业分类数据进行同义词扩展,所述向量空间转换模块用于将同义词扩展后的数据和未抽样数据通过词嵌入转换到一向量空间,所述数据标注模块用于计算抽样后数据中企业经营范围字段与国民经济行业企业经营范围描述数据间的相似度并进行标注,所述行业识别模块用于对标注后的数据使用机器学习算法进行训练并对未标注社会统一信用代码数据利用训练得到的分类模型获得其行业类别。2.根据权利要求1所述的一种基于文本相似度的企业行业识别系统,其特征在于:所述数据预处理模块对文本预处理时将文本数据中的标点符号、停用词和分词全部去除,所述数据预处理模块生成动词及名词词袋对数据进行词性标注后只保留动词和名词。3.根据权利要求1所述的一种基于文本相似度的企业行业识别系统,其特征在于:所述数据抽样模块是根据用户设定的抽样比例随机抽取统一社会信用代码数据库中的部分数据。4.根据权利要求1所述的一种基于文本相似度的企业行业识别系统,其特征在于:所述同义词扩展模块通过同义词林数据库对抽样后数据和国民经济行业分类数据中的词按用户设定数量检索对应数量的与其最相似的词并加入数据库中;所述向量空间转换模块通过word2vec词嵌入算法将数据转换到一向量空间。5.根据权利要求1所述的一种基于文本相似度的企业行业识别系统,其特征在于:所述数据标注模块对每一条抽样后数据逐条计算其经营范围字段与每一条国民经济行业经济数据的余弦相似度;找到一个以上相似度高于预设阈值的国民经济行业,则将该...

【专利技术属性】
技术研发人员:张晖冯海杨弋王铮张鹏魏兵兵姚晗
申请(专利权)人:四川省标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1