一种企业分类方法和系统技术方案

技术编号:33790321 阅读:38 留言:0更新日期:2022-06-12 14:46
本发明专利技术公开一种企业分类方法和系统,所述方法包括:获取待分类企业的综合信息,所述综合信息为用于判断待分类企业是否为特定企业类型的数据信息;将综合信息进行清洗和主成分分析;将经过清洗和主成分分析的综合信息送入训练好的特定企业分类模型中;根据特定企业分类模型的输出结果判断待分类企业是否为特定企业。采用本发明专利技术的企业分类方法,能够利用非文本类数据并使用机器学习方法来建立企业分类的模型,并通过该模型对定向企业进行大规模挖掘从而筛选出符合特定要求的潜在企业。挖掘从而筛选出符合特定要求的潜在企业。挖掘从而筛选出符合特定要求的潜在企业。

【技术实现步骤摘要】
一种企业分类方法和系统


[0001]本专利技术属于数据挖掘
,具体来说,涉及一种基于有监督机器学习的企业分类的方法和系统。

技术介绍

[0002]将企业进行有目的的分类认定是商业分析和投资决策过程中的重要一环,在很多种企业认定的过程中,需要依靠企业营收等企业私密数据来进行综合判断认定,而这些数据无法通过常规途径大量获取。因此通过企业所公开的数据进行企业分类认定就显得十分有必要,在现有技术中,企业分类场景大都是将企业所述行业进行分类,这并不符合本申请的目的。
[0003]对于企业认定,比如四上、专精特新、国高等,目前都是人工根据公开的信息进行总结或经验推断,而这些信息并非真实且认定过程中具有主观性,导致挖掘过程中对企业的认定结果误差很大。

技术实现思路

[0004]为了克服上述现有技术存在的不足,本专利技术提供一种基于机器学习的企业分类的方法和系统,解决了现有技术中针对大量企业的综合信息,无法实现精准分类且分类效率低的问题。
[0005]为实现上述技术目的,本专利技术第一发面提供了一种企业分类方法,包括:
[0006]获取待分类企业的综合信息,所述综合信息为用于判断待分类企业是否为特定企业类型的数据信息;
[0007]将综合信息进行清洗和主成分分析;
[0008]将经过清洗和主成分分析的综合信息送入训练好的特定企业分类模型中;
[0009]根据特定企业分类模型的输出结果判断待分类企业是否为特定企业。
[0010]在某一实施例中,所述特定企业分类模型按照如下方式训练得到:
[0011]选取入库为特定企业类型的企业进行抽样,获得t个正样本A1、A2
……
At;
[0012]选取未入库为特定企业类型的企业进行抽样,获得t个负样本B1、B2
……
Bt;
[0013]将t个正样本和t个负样本进行一一混合匹配形成t个待训练样本;
[0014]将t个待训练样本分别进行训练,得到t个不同的特定企业分类模型。
[0015]在某一实施例中,所述将t个正样本和t个负样本进行一一混合匹配形成t个待训练样本,具体形成如下t个待训练样本:
[0016](A1+B1)、(A2+B2)
……
(At+Bt)。
[0017]在某一实施例中,所述将t个待训练样本分别进行训练为将每个待训练样本按如下方式进行训练:
[0018]将选取入库为特定企业类型的企业作为调参模型评估样本,以AUC作为模型调优的目标函数反复训练,直到搜到到局部最优参数时,输出对应参数下训练好的特定企业分
类模型。
[0019]在某一实施例中,所述正样本或负样本的数量t选择N1和N2中的最大值,其中N1和N2的计算方式为:
[0020](1)其中z为置信度,p为正样本比例,d为可接受的精确度;
[0021](2)N2为正样本数量的M倍。
[0022]在某一实施例中,所述待训练样本采用XGBoost模型训练。
[0023]在某一实施例中,所述t个正样本采用不放回抽样获得,所述t个负样本采用放回抽样获得。
[0024]在某一实施例中,所述根据特定企业分类模型的输出结果判断待分类企业是否为特定企业包括:
[0025]将待分类企业的综合信息输入到t个不同的特定企业分类模型中,并输出t个对应的正样本概率;
[0026]将t个对应的正样本概率进行评估得到待分类企业的综合概率;
[0027]将待分类企业的综合概率与企业分类阈值进行比较,从而判断待分类企业是否为特定企业。
[0028]第二方面,本专利技术提供了一种企业分类系统,包括:
[0029]综合信息获取模块,用于获取待分类企业的综合信息,所述综合信息为用于判断待分类企业是否为特定企业类型的数据信息;
[0030]清洗分析模块,用于将综合信息进行清洗和主成分分析;
[0031]输入模块,用于将经过清洗和主成分分析的综合信息送入训练好的特定企业分类模型中;
[0032]分类判断模块,用于根据特定企业分类模型的输出结果判断待分类企业是否为特定企业。
[0033]进一步地,所述特定企业分类模型按照如下方式训练得到:
[0034]正样本抽样模块,用于选取入库为特定企业类型的企业进行抽样,获得t个正样本A1、A2
……
At;
[0035]负样本抽样模块,用于选取未入库为特定企业类型的企业进行抽样,获得t个负样本B1、B2
……
Bt;
[0036]样本混合模块,将t个正样本和t个负样本进行混合一一匹配形成t个待训练样本;
[0037]训练模块,将t个待训练样本分别进行训练,得到t个不同的特定企业分类模型。
[0038]本专利技术相比现有技术,具有如下有益效果:
[0039]1、本申请针对不同的应用场景,仅仅需要调整使用的正样本和对应场景相关的特征数据,即可达成使用场景的迁移。
[0040]2、本申请通过公开的更加可靠的多维度数据信息,而不仅限于使用文本数据,最大程度减少单维度或低维度数据不可靠的风险。
附图说明
[0041]图1为本专利技术企业分类方法的流程图;
[0042]图2为本专利技术特定企业分类模型的训练方法;
[0043]图3为本专利技术根据特定企业分类模型的输出结果判断待分类企业是否为特定企业的流程图;
[0044]图4为本专利技术企业分类系统的模块框图。
[0045]图中标记说明:1

信息获取模块,2

清洗分析模块,3

输入模块,4

分类判断模块,5

特定企业分类模型训练模块,51

正样本抽样模块,52

负样本抽样模块,53

样本混合模块,54

训练模块。
具体实施方式
[0046]为了便于本领域技术人员的理解,下面结合实施例与附图对本专利技术作进一步的说明,实施方式提及的内容并非对本专利技术的限定。
[0047]如图1所示,一种企业分类方法,包括如下步骤:
[0048]S100:获取待分类企业的综合信息,所述综合信息为用于判断待分类企业是否为特定企业类型的数据信息。
[0049]当要对待分类企业分类成特定企业类型时,就根据评价特定企业类型的需求采集相应待分类企业所需要的综合信息,这些综合信息作为第三方数据,可以从企业的网站或者公开渠道(比如企查查、看准网等)合法获取(爬取)。
[0050]比如我们要看企业是否能够认定为四上企业时,可以获取企业的员工数、招聘薪资、存续时间、知识产权以及租金等指标来进行分类认定。
[0051]S200:将综合信息进行清洗和主成分分析
[0052]由于综合信息在很多渠道存在无用和重复的数据,需要对这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业分类方法,其特征在于,包括:获取待分类企业的综合信息,所述综合信息为用于判断待分类企业是否为特定企业类型的数据信息;将综合信息进行清洗和主成分分析;将经过清洗和主成分分析的综合信息送入训练好的特定企业分类模型中;根据特定企业分类模型的输出结果判断待分类企业是否为特定企业。2.根据权利要求1所述的企业分类方法,其特征在于,所述特定企业分类模型按照如下方式训练得到:选取入库为特定企业类型的企业进行抽样,获得t个正样本A1、A2
……
At;选取未入库为特定企业类型的企业进行抽样,获得t个负样本B1、B2
……
Bt;将t个正样本和t个负样本进行一一混合匹配形成t个待训练样本;将t个待训练样本分别进行训练,得到t个不同的特定企业分类模型。3.根据权利要求2所述的企业分类方法,其特征在于,所述将t个正样本和t个负样本进行一一混合匹配形成t个待训练样本,具体形成如下t个待训练样本:(A1+B1)、(A2+B2)
……
(At+Bt)。4.根据权利要求2或3所述的企业分类方法,其特征在于,所述将t个待训练样本分别进行训练为将每个待训练样本按如下方式进行训练:将选取入库为特定企业类型的企业作为调参模型评估样本,以AUC作为模型调优的目标函数反复训练,直到搜到到局部最优参数时,输出对应参数下训练好的特定企业分类模型。5.根据权利要求2所述的企业分类方法,其特征在于,所述正样本或负样本的数量t选择N1和N2中的最大值,其中N1和N2的计算方式为:(1)其中z为置信度,p为正样本比例,d为可接受的精确度;(2)N2为正样本数量的M...

【专利技术属性】
技术研发人员:苏毓腾邱宝茹李麟聂丽娟崔海宁
申请(专利权)人:深圳市前海数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1