一种企业多种经营范围识别方法与系统技术方案

技术编号:35926103 阅读:7 留言:0更新日期:2022-12-10 11:19
本发明专利技术提供一种企业多种经营范围识别方法与系统,包括国民经济范围特征库构建和多种经营范围识别两个部分,国民经济范围特征库构建用于将《国民经济行业分类》数据转换为分层的向量空间,并计算出所有子类对应于大类的条件概率,包含数据合成模块、数据向量化模块、条件概率计算模块三个组成部分;多种经营范围识别用于对给条样本数据在数据预处理后计算其包含于某几类国民经济行业类别四级目录的概率,包括数据预处理模块和概率相似度计算模块。本发明专利技术通过预先计算各个子类在大类中的条件概率,能够快速计算样本属于某几类经营范围的概率,提高经营范围识别的速度。提高经营范围识别的速度。提高经营范围识别的速度。

【技术实现步骤摘要】
一种企业多种经营范围识别方法与系统


[0001]本专利技术涉及数据处理
,尤其涉及一种企业多中经营范围识别方法与系统。

技术介绍

[0002]当前市场主体在进行登记时需要对其经营范围进行登记,从《国民经济行业分类》标准中可以方便地查询出其所属行业,进而可以在统一社会信用代码数据库中对某地区的市场主体行业分布进行计算,有助于主管部门了解某地区的市场主体行业分布情况,有针对性的制定帮扶政策。但在《国民经济行业分类》标准颁布使用前,大量企业填写其经营范围时使用了不太标准的描述,在对它们的行业进行识别时,就需要根据其填写的不规范经营范围描述,从《国民经济行业分类》中确定其行业。
[0003]在确定企业行业时,可采用文本相似度计算方法,将企业填写的经营范围与《国民经济行业分类》中的行业进行语义相似度计算,将与企业填写经营范围最接近的《国民经济行业分类》行业作为其行业。文本相似度计算可分为有监督方法和无监督方法,有监督方法采用支持向量机、深度神经网络等有监督学习算法,通过对已标注数据的训练,得到模型的参数,进而可以用训练好的模型计算其所属类别。其缺点是需要大量的标注数据。无监督方法主要通过计算句子间的距离,选择与设定句距离最短的句子,其缺点在于每一条句子都需要计算其与目标文本集的距离,速度较慢。本专利技术采用无监督方法,但根据数据的特点,通过预先计算好的条件概率提高其计算效率。
[0004]通常机器学习算法一个数据只能指定一个类别,一条数据属于多个类别的方法被称为多标签分类算法。这类算法可以分为两类,一类是将多标签分类问题转化为多个二分类问题或标签排序问题等可以用现有机器学习算法来解决的问题;另一类是重新设计多标签分类算法。在设计多标签分类算法时,如果标签存在关系,如是树状结构或有向无环图,则可以利用这些结构信息来构建层次多标签分类算法。常用的多标签分类算法主要有预测聚类树方法、基于路径评价的方法、基于自动编码器的方法和基于深度学习的方法。

技术实现思路

[0005]本专利技术的针对使用有监督方法实现文本相似度时需要大量人工标注数据且使用无监督方法计算速度慢的问题,提供了一种企业多种经营范围识别方法与系统。
[0006]为了解决上述技术问题,本专利技术提出如下方案:
[0007]一种企业多种经营范围识别系统,包括国民经济范围特征库构建和多种经营范围识别两个部分。国民经济范围特征库构建用于将《国民经济行业分类》数据转换为分层的向量空间,并计算出所有子类对应于大类的条件概率,包含数据合成模块、数据向量化模块、条件概率计算模块三个组成部分。多种经营范围识别用于对给条样本数据在数据预处理后计算其包含于某几类国民经济行业类别四级目录的概率,包括数据预处理模块和概率相似度计算模块。
[0008]其中数据合成模块用于将《国民经济行业分类》每一类一级行业分类下的所有行业经营范围描述数据聚合到为一个数据集,合成后共有18个子数据集。
[0009]其中数据向量化模块对聚合后的18个子数据集进行预处理获得规范的词袋数据,再将原始数据转换到向量空间。所述数据向量化模块通过预训练好的word2vec词嵌入模型将数据转换到向量空间,具体来讲是将分好的每一个词获取其对应的矢量,每个文档取其包含词向量的平均值。
[0010]其中条件概率计算模块用于计算四级行业经营范围描述数据在其所属的一级子数据集中的条件概率。
[0011]其中数据预处理模块用于对需要识别所属行业类别的经营范围数据进行去停用词、分词等文本预处理工作,通过预训练好的word2vec词嵌入模型将数据转换到向量空间,将分好的每一个词获取其对应的矢量,每一企业经营范围数据向量取其包含词向量的平均值。
[0012]其中概率相似度计算模块通过计算一企业经营范围数据在一类行业中所属概率和四级行业在一级行业中的条件概率确定样本所属的四级行业经营范围。
[0013]一种企业多种经营范围识别方法,包括如下步骤:
[0014]步骤1.将国民经济行业分类数据集中每一行业大类下的四级行业分类经营范围数据合成为一个子数据集,形成18个子数据集。
[0015]步骤2.将所有子数据集中的数据进行分词、去停用词等文本预处理后,只保留对行业识别有用的名词和动词,形成18个词袋数据,通过预训练的word2vec模型将所有词映射到向量空间。
[0016]具体包括:
[0017]步骤(1).对步骤1中形成的18个子数据集分别利用分句、分词、去停用词、词性标注、去重复数据等操作后,只保留对行业识别有用的名词和动词,将其存入TXT文件中,形成18个词袋数据;
[0018]步骤(2).利用维基百科预训练好的word2vec模型将第一步形成的18个词袋数据中的所有词映射到向量空间,形成18个一级行业词向量数据。
[0019]步骤3.计算每个四级行业在一级行业中的条件概率。
[0020]具体包括如下步骤:
[0021]S1.利用word2vec训练出每一级行业下的四级行业词向量,然后计算出四级行业与该一级行业词向量的余弦相似度;
[0022]S2.利用下列公式计算出四级行业经营范围描述数据在其所属的一级子数据集中的条件概率:
[0023][0024]其中X
i
表示第i个一级行业分类中的所有四级行业分类经营范围描述数据形成的句子向量(文档向量),X
ij
表示第i个一级行业中第j个四级行业经营范围的文档向量(句子向量),C为第i个一级行业中包含的四级行业数量。
[0025]z
j
=cos(X
i
,X
ij
)
[0026]cos(X
i
,X
ij
)表示X
i
和X
ij
的余弦相似度。
[0027]步骤4.逐条取出企业经营范围数据库中的数据,进行分词、去停用词等预处理,并将其通过预训练的word2vec模型转换为句子矢量,计算其属于一级行业的概率。
[0028]具体包括:
[0029]步骤(1).将取出的企业数据库中的企业经营范围数据进行分句、分词、去停用词等预处理;
[0030]步骤(2).通过预训练好的word2vec词嵌入模型将数据转换到向量空间,将分好的每一个词获取其对应的矢量,每一企业经营范围数据向量取其包含词向量的平均值。
[0031]步骤(3).利用步骤(2)中计算出的一级行业行业词向量,一级企业经营范围数据计算余弦相似度,并使用下列式子计算其属于一级行业的概率。
[0032][0033]z
i
=cos(X
i
,Y),cos(X
i
,Y)表示X
i
和Y的余弦相似度,C为一级行业的数量18。
[0034]步骤5.对属于一级行业概率大于阈值的所有一级行业,通过四级行业在一级行业中的条件概率计算企业属于四级行业的概本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业多种经营范围识别系统,其特征在于,包括国民经济范围特征库构建和多种经营范围识别两个部分,国民经济范围特征库构建用于将《国民经济行业分类》数据转换为分层的向量空间,并计算出所有子类对应于大类的条件概率,包含数据合成模块、数据向量化模块、条件概率计算模块三个组成部分;多种经营范围识别用于对给条样本数据在数据预处理后计算其包含于某几类国民经济行业类别四级目录的概率,包括数据预处理模块和概率相似度计算模块。2.根据权利要求1所述的企业多种经营范围识别系统,其特征在于,其中数据合成模块用于将《国民经济行业分类》每一类一级行业分类下的所有行业经营范围描述数据聚合到为一个数据集,合成后共有18个子数据集。3.根据权利要求1所述的企业多种经营范围识别系统,其特征在于,其中数据向量化模块对聚合后的18个子数据集进行预处理获得规范的词袋数据,再将原始数据转换到向量空间,所述数据向量化模块通过预训练好的word2vec词嵌入模型将数据转换到向量空间,具体来讲是将分好的每一个词获取其对应的矢量,每个文档取其包含词向量的平均值。4.根据权利要求1所述的企业多种经营范围识别系统,其特征在于,其中条件概率计算模块用于计算四级行业经营范围描述数据在其所属的一级子数据集中的条件概率;条件概率计算公式为:其中X
i
表示第i个一级行业分类中的所有四级行业分类经营范围描述数据形成的句子向量,X
ij
表示第i个一级行业中第j个四级行业经营范围的文档向量,C为第i个一级行业中包含的四级行业数量;z
j
=cos(X
i
,X
ij
)cos(X
i
,X
ij
)表示X
i
和X
ij
的余弦相似度。5.根据权利要求1所述的企业多种经营范围识别系统,其特征在于,其中数据预处理模块用于对需要识别所属行业类别的经营范围数据进行去停用词、分词的文本预处理工作,通过预训练好的word2vec词嵌入模型将数据转换到向量空间,将分好的每一个词获取其对应的矢量,每一企业经营范围数据向量取其包含词向量的平均值。6.根据权利要求1所述的企业多种经营范围识别系统,其特征在于,其中概率相似度计算模块通过计算一企业经营范围数据在一类行业中所属概率和四级行业在一级行业中的条件概率确定样本所属的四级行业经营范围。7.一种企业多种经营范围识别方法,其特征在于,包括如下步骤:步骤1.将国民经济行业分类数据集中每一行业大类下的四级行业分类经营范围数据合成为一个子数据集,形成18个子数据集;步骤2.将所有子数据集中的数据进行分词、去停用词的文本预处理后,只保留对行业识别有用的名词和动词,形成18个词袋数据,通过预训练的word2vec模型将所有词映射到向量空间;步骤3.计算每个四级行业在一级行业中的条件概率;步骤4.逐条取出企业经营范围数据库中的数据,进行分词、去停用词的预处理,并将其
通过预训练的word2vec模型转换为句...

【专利技术属性】
技术研发人员:张晖吴青芯王铮杨弋姚晗高屹嵩魏兵兵樊友红张鹏张高勋马新
申请(专利权)人:四川省标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1