基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质制造方法及图纸

技术编号:32130713 阅读:12 留言:0更新日期:2022-01-29 19:29
本发明专利技术涉及一种基于半监督学习实现企业评分和评级的系统,其中,该系统包括系统包括数据采集处理模块,用于获取企业相关数据源;数据预处理模块,用于对采集到的各类数据进行数据清洗和字段处理;构造特征处理模块,用于根据不同数据之间的特征分类属性,计算各个数据的特征值;模型训练处理模块,用于分别使用训练模型对全部数据进行分类;以及评分评级计算模块,用于进行评分卡分数的计算,并根据多维度累加得到的总分数获取最终的评级等级。本发明专利技术还涉及一种相应的方法、装置、处理器及其计算机可读存储介质。采用了本发明专利技术的该系统、方法、装置、处理器及其计算机可读存储介质,充分利用多类别数据源的数据价值,提供一种客观统一的评价体系。统一的评价体系。统一的评价体系。

【技术实现步骤摘要】
基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质


[0001]本专利技术涉及大数据分析处理
,尤其涉及企业评分等级处理
,具体是指一种基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质。

技术介绍

[0002]目前现有的一些企业评分和评级方案大多是较依赖主观定性因素实现。但随着国内新兴行业的发展,传统的方案无法较客观的给这些企业评分,一是很多企业数据积累有限,二是依赖专家经验和行业研究,三是稳定性不高。不同的人对同一企业的评价不同,同一人在不同时间对同一企业的评价也可能不同,因此导致对于企业的评分和评级的决策上,存在个人判断的主观性,缺乏统一标准。
[0003]同时,由于没有较为全面的企业评分和评级的标签数据,所以通常使用人工智能模型来对企业进行评分和评级时,采用无监督的学习场景,得出的结果较发散,在具体业务场景使用时,也无法提供较为可靠的数据依据和支撑。

技术实现思路

[0004]本专利技术的目的是克服了上述现有技术的缺点,提供了一种更加灵活可靠的基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质。
[0005]为了实现上述目的,本专利技术的基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质如下:
[0006]该基于半监督学习实现企业评分和评级的系统,其主要特点是,所述的系统包括:
[0007]数据采集处理模块,用于获取企业内部数据源以及外部数据源,以实现对企业信用风险的对维度评估;
[0008]数据预处理模块,与所述的数据采集处理模块相连接,用于对采集到的各类数据进行数据清洗以及字段处理;
[0009]构造特征处理模块,与所述的数据预处理模块相连接,用于根据不同数据之间的特征分类属性,计算各个数据的特征值,并将各个特征值进行分箱处理,以进行重要特征的筛选;
[0010]模型训练处理模块,与所述的构造特征处理模块相连接,用于分别使用逻辑回归模型和随机森林模型对全部数据进行分类,并根据训练结果输出各个特征数据的权重比;以及
[0011]评分评级计算模块,与所述的模型训练处理模块相连接,用于根据不同数据源之间的类型,切分为不同维度,并对各个维度涉及到的所有数据源的模型训练输出结果,进行评分卡分数的计算,并根据多维度累加得到的总分数获取最终的评级等级。
[0012]该利用上述系统实现基于半监督学习进行企业评分和评级的方法,其主要特点
是,所述的方法包括以下步骤:
[0013](1)进行企业内部数据源以及外部数据源的数据采集;
[0014](2)对采集的数据进行数据清洗以及字段处理;
[0015](3)根据各个数据的不同的特征属性计算相应的特征值,以进行重要特征的筛选;
[0016](4)对采集到的数据进行模型训练,获取相应特征数据的权重比和重要性;
[0017](5)根据各个数据的类型进行不同维度的切分,并按照模型训练的结果进行评分卡分数的转化,以实现对企业评分和评级。
[0018]较佳地,所述的步骤(1)具体为:
[0019]获取包含工商信息类数据、经营状况类数据、裁判文书网数据、财务信息类数据、舆情信息类数据、企业评级数据、信用星级相关数据以及ESG外部数据源数据;其中,
[0020]所述的ESG外部数据源数据具体指包含环境、社会以及治理方面的数据。
[0021]较佳地,所述的步骤(2)具体包括以下步骤:
[0022](2.1)对采集到的数据进行包括但不限于去除多余空格、无效字符的清洗处理;
[0023](2.2)对采集到的数据的原始字段进行映射转换,以及对采集到的数据的字符类型进行转换;
[0024](2.3)针对所有数据进行统一日期、金额和货币的格式处理。
[0025]较佳地,所述的步骤(3)具体包括以下步骤:
[0026](3.1)对进行数据预处理后的数据按照基本特征、统计型特征以及时序型特征的属性进行分类;
[0027](3.2)进入分箱初始化处理阶段,对分类处理后的各个特征按照离散型向连续型转换的处理规则进行属性值大小的排序;
[0028](3.3)对每一组相邻的数据进行计算卡方值的处理;
[0029](3.4)根据计算出的卡方值,将其中计算出的卡方值最小的一组数据进行临近组合,合并为一组;
[0030](3.5)重复上述步骤(3.3)至(3.4),直到所有卡方值都不低于设定阈值或者分组达到预期数量;
[0031](3.6)根据计算出的每一个卡方值计算对应的证据权重WOE以及信息价值IV,以实现重要特征的筛选。
[0032]更佳地,所述的步骤(3.3)具体按照以下公式计算所述的卡方值:
[0033][0034]其中,E
ij
=R
i
×
C
j
/N,A
ij
为i区间中j类样本个数,为i区间中样本数,为j类样本的个数,为总样本个数。
[0035]更佳地,所述的步骤(3.6)具体按照以下公式计算所述的证据权重WOE以及信息价值IV:
[0036][0037]其中,B为正样本总数,B
i
为i区间对应的正样本数;G为负样本总数,G
i
为i区间对应
的负样本数;
[0038][0039]较佳地,所述的步骤(4)具体包括以下步骤:
[0040](4.1)将采集到的所有数据按照预设数量进行分组,选取其中一组作为测试集,其他组作为训练集进行分轮训练;
[0041](4.2)分别使用逻辑回归模型和随机森林模型对训练后的数据进行分类,以输出各个特征数据的权重和重要性。
[0042]较佳地,所述的步骤(4.2)具体包括:
[0043]当特征向量维数高,且训练样本数大时,采用所述的逻辑回归模型即可输出相应特征的权重;
[0044]当需要输出特征的重要性时采用所述的逻辑回归模型即可训练完成。
[0045]较佳地,所述的步骤(5)具体包括以下步骤:
[0046](5.1)根据各个数据的类型进行不同维度的切分,并根据模型训练的输出结果进行相应数据评分卡分数的计算,获取多维度的总分数;
[0047](5.2)根据获取到的所有的总分数的区间分布情况,通过制定对应的评级等级的阈值,调整实际的分布情况来获得最终的评级等级;
[0048](5.3)根据实际情况适当加入人工调整,以计算出所需的特征及其相应的权重值。
[0049]更佳地,所述的步骤(5.1)具体根据以下公式计算出所述的评分卡分数:
[0050][0051][0052]其中,P为模型输出的概率值结果,A为基础分参数,B为影响因子参数,W
i
为每一个特征的权重,f
i
为每一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习实现企业评分和评级的系统,其特征在于,所述的系统包括:数据采集处理模块,用于获取企业内部数据源以及外部数据源,以实现对企业信用风险的对维度评估;数据预处理模块,与所述的数据采集处理模块相连接,用于对采集到的各类数据进行数据清洗以及字段处理;构造特征处理模块,与所述的数据预处理模块相连接,用于根据不同数据之间的特征分类属性,计算各个数据的特征值,并将各个特征值进行分箱处理,以进行重要特征的筛选;模型训练处理模块,与所述的构造特征处理模块相连接,用于分别使用逻辑回归模型和随机森林模型对全部数据进行分类,并根据训练结果输出各个特征数据的权重比;以及评分评级计算模块,与所述的模型训练处理模块相连接,用于根据不同数据源之间的类型,切分为不同维度,并对各个维度涉及到的所有数据源的模型训练输出结果,进行评分卡分数的计算,并根据多维度累加得到的总分数获取最终的评级等级。2.一种利用权利要求1所述的系统实现基于半监督学习进行企业评分和评级的方法,其特征在于,所述的方法包括以下步骤:(1)进行企业内部数据源以及外部数据源的数据采集;(2)对采集的数据进行数据清洗以及字段处理;(3)根据各个数据的不同的特征属性计算相应的特征值,以进行重要特征的筛选;(4)对采集到的数据进行模型训练,获取相应特征数据的权重比和重要性;(5)根据各个数据的类型进行不同维度的切分,并按照模型训练的结果进行评分卡分数的转化,以实现对企业评分和评级。3.根据权利要求2所述的实现基于半监督学习进行企业评分和评级的方法,其特征在于,所述的步骤(1)具体为:获取包含工商信息类数据、经营状况类数据、裁判文书网数据、财务信息类数据、舆情信息类数据、企业评级数据、信用星级相关数据以及ESG外部数据源数据;其中,所述的ESG外部数据源数据具体指包含环境、社会以及治理方面的数据。4.根据权利要求2所述的实现基于半监督学习进行企业评分和评级的方法,其特征在于,所述的步骤(2)具体包括以下步骤:(2.1)对采集到的数据进行包括但不限于去除多余空格、无效字符的清洗处理;(2.2)对采集到的数据的原始字段进行映射转换,以及对采集到的数据的字符类型进行转换;(2.3)针对所有数据进行统一日期、金额和货币的格式处理。5.根据权利要求4所述的实现基于半监督学习进行企业评分和评级的方法,其特征在于,所述的步骤(3)具体包括以下步骤:(3.1)对进行数据预处理后的数据按照基本特征、统计型特征以及时序型特征的属性进行分类;(3.2)进入分箱初始化处理阶段,对分类处理后的各个特征按照离散型向连续型转换的处理规则进行属性值大小的排序;(3.3)对每一组相邻的数据进行计算卡方值的处理;
(3.4)根据计算出的卡方值,将其中计算出的卡方值最小的一组数据进行临近组合,合并为一组;(3.5)重复上述步骤(3.3)至(3.4),直到所有卡方值都不低于设定阈值或者分组达到预期数量;(3.6)根据计算出的每一个卡方值计算对应的证据权重WOE以及信息价值IV,以实现重要特征的筛选。6.根据权利要求5所述的实现基于半监督学习进行企业评分和评级的方法,其特征在于,所述的步骤(3.3)具体按照以下公式计...

【专利技术属性】
技术研发人员:俞枫王珣苑博孙中宇黄志昌
申请(专利权)人:国泰君安证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1