基于公开数据对中小微企业评价的方法及相关设备技术

技术编号:35444655 阅读:12 留言:0更新日期:2022-11-03 11:57
本发明专利技术属于数据处理技术领域,具体涉及一种基于公开数据对中小微企业评价的方法及相关设备。一种基于公开数据对中小微企业评价的方法,包括:获取若干企业的企业数据,企业数据包含若干变量及对应的变分值;将所有企业的所有变量以变量分值进行分箱,得到若干分箱后的变量及对应的变量分值,计算每个变量在每个分箱中的证据权重;将单个企业的所有变量以变量分值和证据权重进行加权求和,得到单个企业的评分信息。本发明专利技术能实现对小微企业多维度评价,评价信息可为投资机构提供投资参考,有利于提高投资效率,降低投资风险,为小微企业解决融资难等问题。决融资难等问题。决融资难等问题。

【技术实现步骤摘要】
基于公开数据对中小微企业评价的方法及相关设备


[0001]本专利技术属于数据处理
,具体涉及一种基于公开数据对中小微企业评价的方法及相关设备。

技术介绍

[0002]目前,我国产业环境、征信服务与担保体系等不完善,使得金融服务供给者与需求者之间难以形成有效沟通。特别是在商业银行与民营和小微企业之间,信息不对称矛盾更为突出:一方面,银行难以收集和甄别民营和小微企业有效信息并据此进行信贷决策;另一方面,民营和小微企业未全面了解银行产品和服务,难以迈出建立银企关系的第一步。企业无授信,即在银行无信用等级评定,小微企业本身存在财务信息披露不规范,银行和企业之间存在较突出的信息不对称问题。没有贷款经历的小微企业信用信息相对更少,所以难以通过观察其历史还款情况判断其还款意愿,或者是本身不符合银行贷款的准入条件,并且这些小微企业没有贷款经历对银行贷款业务可能了解更少。这些因素导致小微企业难以获得银行贷款。小微企业存在信用信息缺失、抵押不足、担保弱以及融资成本高等痛点问题。
[0003]目前通行的解决方式是:一是国家政策,二是银行营销,三是信息共享。
[0004]国家政策方面,由银保监会大力推动政府性担保机构对小微企业贷款进行担保,解决企业担保弱问题;增加支持普惠小微信用贷款总体额度,既有利于支持银行市场化持续支持原客户信贷需求,也有利于促进银行挖掘新客户普惠小微贷款;实行阶段性税收缓缴等政策,可降低企业运营成本。
[0005]在银行营销方面,增加营销人员,扩大普惠金融等银行产品宣传范围,让更多有融资需求的小微企业了解这些产品。促进银企间的信息沟通,打破双方零信息及信息不对称问题。
[0006]信息共享方面,目前银保监会正在打通金融信用信息和政府公共信息、企业信息,在各地推动组建中小企业信用信息平台。能够进一步推进市场营销。
[0007]上述三种方式均存在一些问题:
[0008]靠国家政策确实可以在一定程度上解决小微企业融资问题,但是这种情况复杂,国家出台各种政策,一是推高了各方政务机关成本,二是仅从表面解决了部分融资问题,但是随之而来的提高了银行的金融风险。
[0009]银行营销也一样,提高运营成本及伴随着推高金融风险;
[0010]信息共享确实是个不错的方向,但是也存在信息量不够全面,及信息仅停留在推进营销的联系上。

技术实现思路

[0011]本专利技术针对现有的民营和小微企业在银行无授信,存在信用信息缺失、抵押不足、担保弱以及融资成本高的技术问题,目的在于提供一种基于公开数据对中小微企业评价的方法及相关设备。
[0012]一种基于公开数据对中小微企业评价的方法,包括:
[0013]获取若干企业的企业数据,所述企业数据包含若干变量及对应的变分值;
[0014]将所有企业的所有变量以所述变量分值进行分箱,得到若干分箱后的变量及对应的变量分值,计算每个变量在每个分箱中的证据权重;
[0015]将单个企业的所有变量以所述变量分值和所述证据权重进行加权求和,得到单个所述企业的评分信息。
[0016]作为优选方案,所述获取若干企业的企业数据,所述企业数据包含若干变量及对应的变分值,包括:
[0017]获取若干企业的原始数据,对所述原始数据中的脏数据进行清洗;
[0018]整理原始数据,得到变量及对应的变量数据;
[0019]对所述变量数据进行归一化处理,得到每个变量的变量分值。
[0020]作为优选方案,所述脏数据包括缺失值或异常值,在对所述缺失值或异常值进行清洗时,采用填充0值或当空置NA处理。
[0021]作为优选方案,所述将所有企业的所有变量以所述变量分值进行分箱,包括:
[0022]将所有的所述变量分值按从小到大的顺序排列;
[0023]按照所述变量分值平均跨度范围进行划分为若干等距的区间,每个所述区间作为一个分箱。
[0024]作为优选方案,所述计算每个变量在每个分箱中的证据权重,包括:
[0025]定义差企业的概率表示为p,则好企业的概率表示为1

p,将所述变量分值作为自变量,采用预设的逻辑回归模型对每个所述企业进行二分类,确定出所有企业的企业信用,所述企业信用为差企业或好企业;
[0026]对单个变量计算在单个分箱中的证据权重WOE:
[0027][0028]其中,WOE
i
为单个变量在第i个分箱中的证据权重;p
i1
为第i个分箱中差企业占所有差企业比例;p
i0
为第i个分箱中好企业占所有好企业比例;为第i个分箱中差企业数量;为第i个分箱中好企业数量;为所有差企业数量;为所有好企业数量。
[0029]作为优选方案,在将所述变量分值作为自变量,采用预设的逻辑回归模型对每个所述企业进行二分类时,还计算所述自变量的p

value值(假定值),若所述p

value值大于预设的假定阈值,则筛除所述自变量,再将剩下的自变量采用所述逻辑回归模型进行二分类。
[0030]作为优选方案,在确定出所有企业的企业信用后,还计算所述逻辑回归模型的AUC值(ROC曲线下的面积),当所述AUC值小于0.5时,通过计算单个变量信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量重新采用所述逻辑回归模型进行二分类。
[0031]作为优选方案,在确定出所有企业的企业信用后,还计算所述逻辑回归模型的KS值(模型评价指标),当所述KS值不大于0.4时,通过计算单个变量信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量重新采用所述逻辑回归模型进行二分类。
[0032]作为优选方案,所述对单个变量计算在单个分箱中的证据权重WOE之前,还包括通
过计算单个变量的信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量计算证据权重及计算加权求和。
[0033]作为优选方案,计算单个变量的信息价值IV:
[0034][0035]将单个变量的信息价值小于预设信息价值阈值的变量进行剔除,剩下的变量作为目标变量。
[0036]作为优选方案,所述将单个企业的所有变量以所述变量分值和所述证据权重进行加权求和,得到单个所述企业的评分信息,包括采用如下公式计算评分信息Score:
[0037][0038]其中,A

Bθ0为预设的基础分数,A和B均为预设的常数;θ
i
为第i个变量的变量分值;w
ij
为第i个变量所在的第j个分箱的证据权重;δ
ij
是0或1的逻辑变量,当δ
ij
=1代表第i个变量取第j个分箱,当δ
ij
=0代表第i个变量不取第j个分箱。
[0039]作为优选方案,若单个企业的所述评分信息高于预设的最高评分阈值,则将所述评分信息重置为所述最高评分阈值;
[0040]若单个企业的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于公开数据对中小微企业评价的方法,其特征在于,包括:获取若干企业的企业数据,所述企业数据包含若干变量及对应的变分值;将所有企业的所有变量以所述变量分值进行分箱,得到若干分箱后的变量及对应的变量分值,计算每个变量在每个分箱中的证据权重;将单个企业的所有变量以所述变量分值和所述证据权重进行加权求和,得到单个所述企业的评分信息。2.如权利要求1所述的基于公开数据对中小微企业评价的方法,其特征在于,所述获取若干企业的企业数据,所述企业数据包含若干变量及对应的变分值,包括:获取若干企业的原始数据,对所述原始数据中的脏数据进行清洗;整理原始数据,得到变量及对应的变量数据;对所述变量数据进行归一化处理,得到每个变量的变量分值。3.如权利要求2所述的基于公开数据对中小微企业评价的方法,其特征在于,所述脏数据包括缺失值或异常值,在对所述缺失值或异常值进行清洗时,采用填充0值或当空置NA处理。4.如权利要求1所述的基于公开数据对中小微企业评价的方法,其特征在于,所述将所有企业的所有变量以所述变量分值进行分箱,包括:将所有的所述变量分值按从小到大的顺序排列;按照所述变量分值平均跨度范围进行划分为若干等距的区间,每个所述区间作为一个分箱。5.如权利要求1所述的基于公开数据对中小微企业评价的方法,其特征在于,所述计算每个变量在每个分箱中的证据权重,包括:定义差企业的概率表示为p,则好企业的概率表示为1

p,将所述变量分值作为自变量,采用预设的逻辑回归模型对每个所述企业进行二分类,确定出所有企业的企业信用,所述企业信用为差企业或好企业;对单个变量计算在单个分箱中的证据权重WOE:其中,WOE
i
为单个变量在第i个分箱中的证据权重;p
i1
为第i个分箱中差企业占所有差企业比例;p
i0
为第i个分箱中好企业占所有好企业比例;为第i个分箱中差企业数量;为第i个分箱中好企业数量;为所有差企业数量;为所有好企业数量。6.如权利要求5所述的基于公开数据对中小微企业评价的方法,其特征在于,在将所述变量分值作为自变量,采用预设的逻辑回归模型对每个所述企业进行二分类时,还计算所述自变量的p

value值,若所述p

value值大于预设的假定阈值,则筛除所述自变量,再将剩下的自变量采用所述逻辑回归模型进行二分类。7.如权利要求5所述的基于公开数据对中小微企业评价的方法,其特征在于,在确定出所有企业的企业信用后,还计算所述逻辑回归模型的AUC值,当所述AUC值小于0.5时,通过计算单个变量信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量重新采用所述逻辑回归模型进行二分类。
8.如权利要求5所述的基于公开数据对中小微企业评价的方法,其特征在于,在确定出所有企业的企业信用后,还计算所述逻辑回归模型的KS值,当所述KS值不大于0.4时,通过计算单个变量信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量重新采用所述逻辑回归模型进行二分类。9.如权利要求5所述的基于公开数据对中小微企业评价的方法,其特征在于,所述对单个变量计算在单个分箱中的证据权重WOE之前,还包括通过计算单个变量的信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量计算证据权重及计算加权求和。10.如权利要求7、8或9所述的基于公开数据对中小微...

【专利技术属性】
技术研发人员:钱晓军万军
申请(专利权)人:数库上海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1