一种企业多种经营范围识别方法与系统技术方案

技术编号：35926103 阅读：7 留言：0更新日期：2022-12-10 11:19

本发明专利技术提供一种企业多种经营范围识别方法与系统，包括国民经济范围特征库构建和多种经营范围识别两个部分，国民经济范围特征库构建用于将《国民经济行业分类》数据转换为分层的向量空间，并计算出所有子类对应于大类的条件概率，包含数据合成模块、数据向量化模块、条件概率计算模块三个组成部分；多种经营范围识别用于对给条样本数据在数据预处理后计算其包含于某几类国民经济行业类别四级目录的概率，包括数据预处理模块和概率相似度计算模块。本发明专利技术通过预先计算各个子类在大类中的条件概率，能够快速计算样本属于某几类经营范围的概率，提高经营范围识别的速度。提高经营范围识别的速度。提高经营范围识别的速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种企业多种经营范围识别方法与系统

[0001]本专利技术涉及数据处理
，尤其涉及一种企业多中经营范围识别方法与系统。

技术介绍

[0002]当前市场主体在进行登记时需要对其经营范围进行登记，从《国民经济行业分类》标准中可以方便地查询出其所属行业，进而可以在统一社会信用代码数据库中对某地区的市场主体行业分布进行计算，有助于主管部门了解某地区的市场主体行业分布情况，有针对性的制定帮扶政策。但在《国民经济行业分类》标准颁布使用前，大量企业填写其经营范围时使用了不太标准的描述，在对它们的行业进行识别时，就需要根据其填写的不规范经营范围描述，从《国民经济行业分类》中确定其行业。
[0003]在确定企业行业时，可采用文本相似度计算方法，将企业填写的经营范围与《国民经济行业分类》中的行业进行语义相似度计算，将与企业填写经营范围最接近的《国民经济行业分类》行业作为其行业。文本相似度计算可分为有监督方法和无监督方法，有监督方法采用支持向量机、深度神经网络等有监督学习算法，通过对已标注数据的训练，得到模型的参数，进而可以用训练好的模型计算其所属类别。其缺点是需要大量的标注数据。无监督方法主要通过计算句子间的距离，选择与设定句距离最短的句子，其缺点在于每一条句子都需要计算其与目标文本集的距离，速度较慢。本专利技术采用无监督方法，但根据数据的特点，通过预先计算好的条件概率提高其计算效率。
[0004]通常机器学习算法一个数据只能指定一个类别，一条数据属于多个类别的方法被称为多标签分类算法。这类算法可以分为两类，一类是...

【技术保护点】

【技术特征摘要】
1.一种企业多种经营范围识别系统，其特征在于，包括国民经济范围特征库构建和多种经营范围识别两个部分，国民经济范围特征库构建用于将《国民经济行业分类》数据转换为分层的向量空间，并计算出所有子类对应于大类的条件概率，包含数据合成模块、数据向量化模块、条件概率计算模块三个组成部分；多种经营范围识别用于对给条样本数据在数据预处理后计算其包含于某几类国民经济行业类别四级目录的概率，包括数据预处理模块和概率相似度计算模块。2.根据权利要求1所述的企业多种经营范围识别系统，其特征在于，其中数据合成模块用于将《国民经济行业分类》每一类一级行业分类下的所有行业经营范围描述数据聚合到为一个数据集，合成后共有18个子数据集。3.根据权利要求1所述的企业多种经营范围识别系统，其特征在于，其中数据向量化模块对聚合后的18个子数据集进行预处理获得规范的词袋数据，再将原始数据转换到向量空间，所述数据向量化模块通过预训练好的word2vec词嵌入模型将数据转换到向量空间，具体来讲是将分好的每一个词获取其对应的矢量，每个文档取其包含词向量的平均值。4.根据权利要求1所述的企业多种经营范围识别系统，其特征在于，其中条件概率计算模块用于计算四级行业经营范围描述数据在其所属的一级子数据集中的条件概率；条件概率计算公式为：其中X
i
表示第i个一级行业分类中的所有四级行业分类经营范围描述数据形成的句子向量，X
ij
表示第i个一级行业中第j个四级行业经营范围的文档向量，C为第i个一级行业中包含的四级行业数量；z
j
＝cos(X
i
,X
ij
)cos(X
i
,X
ij
)表示X
i
和X
ij
的余弦相似度。5.根据权利要求1所述的企业多种经营范围识别系统，其特征在于，其中数据预处理模块用于对需要识别所属行业类别的经营范围数据进行去停用词、分词的文本预处理工作，通过预训练好的word2vec词嵌入模型将数据转换到向量空间，将分好的每一个词获取其对应的矢量，每一企业经营范围数据向量取其包含词向量的平均值。6.根据权利要求1所述的企业多种经营范围识别系统，其特征在于，其中概率相似度计算模块通过计算一企业经营范围数据在一类行业中所属概率和四级行业在一级行业中的条件概率确定样本所属的四级行业经营范围。7.一种企业多种经营范围识别方法，其特征在于，包括如下步骤：步骤1.将国民经济行业分类数据集中每一行业大类下的四级行业分类经营范围数据合成为一个子数据集，形成18个子数据集；步骤2.将所有子数据集中的数据进行分词、去停用词的文本预处理后，只保留对行业识别有用的名词和动词，形成18个词袋数据，通过预训练的word2vec模型将所有词映射到向量空间；步骤3.计算每个四级行业在一级行业中的条件概率；步骤4.逐条取出企业经营范围数据库中的数据，进行分词、去停用词的预处理，并将其
通过预训练的word2vec模型转换为句...

【专利技术属性】
技术研发人员：张晖，吴青芯，王铮，杨弋，姚晗，高屹嵩，魏兵兵，樊友红，张鹏，张高勋，马新，
申请(专利权)人：四川省标准化研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人