一种空壳企业确定方法及装置、空壳企业监测方法及装置制造方法及图纸

技术编号:29403750 阅读:26 留言:0更新日期:2021-07-23 22:42
本发明专利技术提供了一种空壳企业确定方法及装置、空壳企业监测方法及装置。该空壳企业确定方法包括:从全量样本中选取出m个样本作为训练样本集;从训练样本集中选出n个正样本作为第一正样本集,并从第一正样本集中选取出s个正样本作为第二正样本集;对第二正样本集中所有正样本进行标记作为标签样本,将训练样本集中其他未标记的m‑s个样本作为无标签样本;利用训练样本集,且以是否为标签样本来训练预设分类器;利用已经训练好的预设分类器对全量样本进行预测,从而获得全量样本中各样本为正样本的概率值以及根据该概率值确定的分类结果;在分类结果是确定为正样本时,确定对应的样本为空壳企业。本发明专利技术方案可以准确地确定出某个样本是否为空壳公司。

【技术实现步骤摘要】
一种空壳企业确定方法及装置、空壳企业监测方法及装置
本专利技术涉及计算机
,尤其涉及一种空壳企业确定方法、装置、空壳企业监测方法及装置。
技术介绍
据相关研究机构分析,2019年底中国空壳公司数量超过450万家,每10家企业中即有1家疑似空壳公司;近一年指向中性或负面目的所设立的空壳公司增速达25%。目前法律上对空壳企业没有一个明确的定义。对企业传统意义上的监测基本依赖工商、税务、社保、质监等数据给出相关的参考信息。常见的企业空壳监测方法有:1.人工解读:具有相关专业知识的人士对企业数据指标进行分析解读。这种方式存在着成本高,效率低下等问题。2.传统的统计学模型:这种方法存在着诸多问题,比如筛选条件依赖专家经验人工定义,而经验的主观性和局限性导致了筛选条件必然存在偏差;条件死板导致分类的准确率低下;只能看到分类结果而无法得到概率、可信度等更多信息。3.机器学习方法建模:该方法需要对企业的各种数据及指标进行分析,通过建模对企业的空壳风险进行评估。常用的机器学习方法包含有监督学习、半监督学习和无监督学习。传统的本文档来自技高网...

【技术保护点】
1.一种空壳企业确定方法,其特征在于,包括如下步骤:/n从全量样本中选取出m个样本作为训练样本集;/n从所述训练样本集中按照一预设条件筛选出n个正样本作为第一正样本集,并从所述第一正样本集中选取出s个正样本作为第二正样本集;/n对所述第二正样本集中所有正样本进行标记,并将已经标记的所述第二正样本集中所有正样本作为标签样本,将训练样本集中其他未标记的m-s个样本作为无标签样本;/n利用所述训练样本集,且以是否为所述标签样本来训练预设分类器;/n利用已经训练好的所述预设分类器对所述全量样本进行预测,从而获得所述全量样本中各样本为正样本的概率值以及根据该概率值确定的分类结果,所述分类结果包括确定为正...

【技术特征摘要】
1.一种空壳企业确定方法,其特征在于,包括如下步骤:
从全量样本中选取出m个样本作为训练样本集;
从所述训练样本集中按照一预设条件筛选出n个正样本作为第一正样本集,并从所述第一正样本集中选取出s个正样本作为第二正样本集;
对所述第二正样本集中所有正样本进行标记,并将已经标记的所述第二正样本集中所有正样本作为标签样本,将训练样本集中其他未标记的m-s个样本作为无标签样本;
利用所述训练样本集,且以是否为所述标签样本来训练预设分类器;
利用已经训练好的所述预设分类器对所述全量样本进行预测,从而获得所述全量样本中各样本为正样本的概率值以及根据该概率值确定的分类结果,所述分类结果包括确定为正样本和确定为负样本;
在所述分类结果是确定为正样本时,确定对应的样本为空壳企业。


2.根据权利要求1所述的空壳企业确定方法,其特征在于,利用已经训练好的所述预设分类器对所述全量样本进行预测,从而获得所述全量样本中各样本为正样本的概率值以及根据该概率值确定的分类结果,包括如下步骤:
利用已经训练好的所述预设分类器对所述全量样本进行预测,获得所述全量样本中各样本为所述标签样本的概率值Pj,其中,Pj为第j个样本为所述标签样本的概率值;
根据所述概率值Pj以及利用已经训练好的所述预设分类器进行预测并计算获得的正样本为所述标签样本的平均概率值P+,获得第j个样本被标记的实际概率值Pj’;
将所述实际概率值Pj’与一预设概率值P0进行比较,在Pj’>P0时,确定该第j个样本为正样本,否则为负样本。


3.根据权利要求2所述的空壳企业确定方法,其特征在于,所述平均概率值P+按照如下方法获取:
利用所述已经训练好的所述预设分类器对所有标签样本进行预测,获得每个标签样本被标记的概率值Rj,其中,Rj为第j个标签样本被标记的概率值;
按照公式P+=(R1+R2+…+Rj+…+Rs)/s,计算获得所述平均概率值P+;
可选地,根据所述概率值Pj以及利用所述已经训练好的所述预设分类器进行预测并计算获得的正样本为所述标签样本的平均概率值P+,获得第j个样本被标记的实际概率值Pj’的步骤中,按照公式Pj’=Pj/P+计算获得第j个样本被标记的实际概率值Pj’。


4.根据权利要求1-3中任一项所述的空壳企业确定方法,其特征在于,从全量样本中选取出m个样本作为第一训练样本集的步骤中,选择无放回随机抽样或分层随机抽样的方式从所述全量样本中选出所述第一训练样本集;
可选地,所述从所述第一训练样本集中按照一预设条件筛选出n个正样本作为第一正样本集的步骤中,所述预设条件为能够明确确定出是空壳公司的特征字段。


5.根据权利要求1所述的空壳企业确定方法,其特征在于,所述预设条件为同时满足以下公式一和公式二的条件:






其中,Ii,n满足以下公式:



Un满足以下公式:



其中,Ei,n表示某个行业中第n个企业在所取的连续的12个月中第i个月的用电量,Li为该行业中所有企业在所取的连续的12个月中第i个月用电量的均值的最低水平临界...

【专利技术属性】
技术研发人员:孙明月王宏刚刘识王倩彭放孙妮简燕红张海峰米娜崔琪马寒梅邓祥瑞吴颖波杨涛
申请(专利权)人:国家电网有限公司大数据中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1