一种基于列联表统计检验的提额与授信金额关联性判别方法技术

技术编号:33030995 阅读:15 留言:0更新日期:2022-04-15 09:07
本发明专利技术公开了一种基于列联表统计检验的提额与授信金额关联性判别方法,即通过卡方检验法对提额与授信金额关联性进行判别,量化统计样本实际观测值与理论值之间的偏离程度。进行统计检验时,卡方值将与相对应的临界值比较,即可得出相关统计结论。该基于列联表统计检验的提额与授信金额关联性判别方法,涵盖卡方检验法和费舍尔精确检验法。该解决方案基于坚实的数学和统计理论,弥补了在大数据情况下图形和相关系数判断力减弱的不足,并且避免了图形趋势的定量模糊性;有利于对变量间关联性进行科学评判;既可适用于数值型、也可用于分类型变量。类型变量。类型变量。

【技术实现步骤摘要】
一种基于列联表统计检验的提额与授信金额关联性判别方法


[0001]本专利技术涉及算法
,具体为一种基于列联表统计检验的提额与授信金额关联性判别方法。

技术介绍

[0002]放贷机构通常都希望在给予用户授信的情况下,用户能予以提额,以增加机构的放贷规模、扩大盈利。
[0003]一般意义下,从业人员倾向于认为提额与否与授信金额有一定的关联度,即获得授信额度更高的用户更倾向于提额,反之,授信额度低的用户提额的可能性也相对小。但是目前主要的分析方法还是以图形走势的判断,辅以肉眼识别的方式。
[0004]从数据分析的角度上说,数据分析人员对于分析两个变量之间关联性的时候,通常会将变量可视化,即通过各种图形,将变量的趋势展示出来。对于数值型变量,这个方法确实相对直观、高效。此外,也有通过相关系数阐明数据之间关联的。这些方法总体来说相对简单、直观,且具备相当解释。
[0005]虽然画图、相关系数理解简单、可解释性高,但是也会遇到一些瓶颈。比如说,走势图、对比图之类的图形会受到坐标范围的影响,即不同的坐标范围会导致视觉感官上的差异,造成决策判断的偏差。又比如,如果两个变量中的一个为分类型变量,则相关系数无法反映变量之间的关系。此外,图形走势虽然可以做出定性判断,但是对于有定量判断要求的情形则存在不足。
[0006]所以我们提出了一种基于列联表统计检验的提额与授信金额关联性判别方法,以便于解决上述提出的问题。

技术实现思路

[0007]本专利技术的目的在于提供一种基于列联表统计检验的提额与授信金额关联性判别方法,以解决上述
技术介绍
提出的问题。虽然画图、相关系数理解简单、可解释性高,但是也会遇到一些瓶颈。比如说,走势图、对比图之类的图形会受到坐标范围的影响,即不同的坐标范围会导致视觉感官上的差异,造成决策判断的偏差,又比如,如果两个变量中的一个为分类型变量,则相关系数无法反映变量之间的关系,此外,图形走势虽然可以做出定性判断,但是对于有定量判断要求的情形则存在不足。
[0008]为实现上述目的,本专利技术提供如下技术方案:一种基于列联表统计检验的提额与授信金额关联性判别方法,具体包括以下步骤:
[0009]步骤一:将提额人数按照授信金额高低划分不同区间,并加以人数统计,制作列联表;
[0010]步骤二:通过卡方检验法对提额与授信金额关联性进行判别,量化样本实际观测值与理论值之间的偏离程度,进行统计检验时,卡方值将与相对应的临界值比较,如果高于临界值,则拒绝假设,即可认为变量间有关联;反之,如果低于临界值,则可认为变量间无关
联,临界值一般由查表所得,其依赖于自由度和置信水平,通常对于统计检验,置信水平一般设为0.95(也有0.99),而自由度df=(R

1)*(C

1),其中R和C分别为列联表的行数和列数;
[0011]步骤三:对于2*2的列联表,通过费舍尔精确检验法对提额与授信金额关联性进行判别,如给定一个列联表,其中变量1取值为A和B,变量2取值为甲和乙,各自组合的类别中有如下的样本数量,即a,b,c,d;
[0012]步骤四:对于不同的表格大小来选择不同的检验法。
[0013]优选的,所述步骤二中卡方值越大,二者偏差程度越大;反之,二者偏差越小。
[0014]优选的,所述步骤二中卡方检验法适用于多维度的列联表。
[0015]优选的,所述步骤三中费舍尔精确检验法仅适用于2*2的列联表。
[0016]优选的,所述步骤三中费舍尔精确检验法适用于所有的样本量。
[0017]优选的,所述费舍尔精确检验法不依赖于近似值或收敛特性。
[0018]优选的,所述费舍尔精确检验法可以精确计算出与零假设(例如P值)的偏差的显著性。
[0019]优选的,所述步骤三中费舍尔精确检验法中的P值计算需要依赖超几何分布。
[0020]与现有技术相比,本专利技术的有益效果是:对于提额与授信金额关联性的判别有了更科学的方法;
[0021]卡方检验法和费舍尔精确检验法作为判定关联性的通常方法,是基于坚实的数学和统计理论,弥补了在大数据情况下图形和相关系数判断力减弱的不足,并且避免了图形趋势的定量模糊性;有利于对变量间关联性进行科学评判;既可适用于数值型、也可用于分类型变量。
附图说明
[0022]图1为本专利技术2*2列联表结构示意图;
[0023]图2为本专利技术p值计算方法结构示意图(费舍尔精确检验法);
[0024]图3为本专利技术示例结构示意图;
[0025]图4为本专利技术示例结构示意图;
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]请参阅图1

4,本专利技术提供一种技术方案:一种基于列联表统计检验的提额与授信金额关联性判别方法,具体包括以下步骤:
[0028]步骤一:将提额人数按照授信金额高低划分不同区间,并加以人数统计,制作列联表;
[0029]步骤二:通过卡方检验法对提额与授信金额关联性进行判别,量化样本实际观测值与理论值之间的偏离程度,且卡方值越大,二者偏差程度越大;反之,二者偏差越小,进行
统计检验时,卡方值将与相对应的临界值比较,如果高于临界值,则拒绝假设,即可认为变量间有关联;反之,如果低于临界值,则可认为变量间无关联,临界值一般由查表所得,其依赖于自由度和置信水平,通常对于统计检验,置信水平一般设为0.95(也有0.99),而自由度df=(R

1)*(C

1),其中R和C分别为列联表的行数和列数;
[0030]步骤三:通过费舍尔精确检验法对提额与授信金额关联性进行判别,虽然费舍尔精确检验法仅适用于2*2的列联表,但却适用于所有的样本量,在2*2列联表分析中使用统计显著性检验,费舍尔精确检验法可以精确计算出与零假设(例如P值)的偏差的显著性,而不是依赖近似值,且P值计算需要依赖超几何分布,例如图2,给定一个列联表,其中变量1取值为A和B,变量2取值为甲和乙,各自组合的类别中有如下的样本数量,即a,b,c,d,即图1;
[0031]步骤四:给定一个提额人数在不同区间的总计表,如图3,可以直接在python环境下调用的scipy.stats中的chi2_contingency函数,得到p值,如果是2*2列联表,则使用费舍尔精确检验法,即调用fisher_exact函数,得到p值,如果p值小于设定阈值(常见如0.05或0.01,分别对应95%和99%的置信水平),则认为提额行为与金额高低有关联;反之,则认为提额行为与金额高低无关联。
[0032]如图4,通过调用上述python函数,能得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于列联表统计检验的提额与授信金额关联性判别方法,其特征在于:具体包括以下步骤:步骤一:将提额人数按照授信金额高低划分不同区间,并加以人数统计,制作列联表;步骤二:通过卡方检验法对提额与授信金额关联性进行判别,量化样本实际观测值与理论值之间的偏离程度,进行统计检验时,卡方值将与相对应的临界值比较,如果高于临界值,则拒绝假设,即可认为变量间有关联;反之,如果低于临界值,则可认为变量间无关联,临界值一般由查表所得,其依赖于自由度和置信水平,通常对于统计检验,置信水平一般设为0.95(也有0.99),而自由度df=(R

1)*(C

1),其中R和C分别为列联表的行数和列数;步骤三:对于2*2的列联表,通过费舍尔精确检验法对提额与授信金额关联性进行判别,如给定一个列联表,其中变量1取值为A和B,变量2取值为甲和乙,各自组合的类别中有如下的样本数量,即a,b,c,d;步骤四:对于不同的表格大小来选择不同的检验法。2.根据权利要求1所述的一种基于列联表统计检验的提额与授信金额关联性判别方...

【专利技术属性】
技术研发人员:陈翱
申请(专利权)人:上海旭荣网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1