System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
风控模型是智能风控体系中的核心部件。当前业界主流的风控模型多为提升树模型,包括xgboost、lgbm等。提升树模型为有监督学习模型,其训练数据中包含特征变量(x)和目标值(y)。为避免模型过拟合,通常在建模过程中将数据集拆分为训练集(train)、测试集(test)和时间外验证集(oot),且建模时需要对特征变量进行筛选。变量筛选通常从变量的有效性和稳定性两个维度考量:变量有效性要求x与y有较高的相关性,以期获得较高的准确率;变量稳定性要求不同数据集上x与y有较高的相似性,以期获得较好的泛化性。变量稳定性包括分布稳定性和趋势稳定性,分布稳定性要求训练集上x的分布与其他数据集上一致,常用判定方法为psi;趋势稳定性要求训练集上y随x变化的趋势与其他数据集上一致,常用判定方法为bivar。psi和bivar分别对每一维x和y之间的稳定性进行判定,是单维稳定性判定方法。xgboost和lgbm等树模型的训练数据通常包括成百上千个特征变量,将此高维空间的变量稳定性拆解到单维空间上进行判定,在趋势稳定性上能得到正确的判定结果,但极易造成分布稳定性的误判。高维空间上的分布稳定性可等效为分布相似性问题。若分布稳定性较高,那么训练集与其他数据集在高维空间上将有较高的分布相似性。常见的空间分布相似性判定指标包括欧式距离、kl散度、js散度等,为计算上述指标,需先将连续空间切分为离散空间,并在此基础上聚合出最终的指标值。上述指标所需的计算量随空间维度增加而指数级增加,在高维空间下需要耗费大量的计算量,甚至引发“维数灾”。因此,期望一种适用于提升树模型的变量分布稳定性判定
技术介绍
技术实现思路
1、为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种适用于提升树模型的变量分布稳定性判定方法,其通过采集训练数据后,在后端引入基于树模型的数据处理和分析算法来进行训练数据的分析,以实现从高维空间到低维空间的特征变换,并在低维空间中进行分布稳定性判定。特别地,在本申请的技术方案中,采用欧式距离作为分布稳定性判定的指标,并将其作为损失函数值,对基于树模型的特征提取器进行训练,通过最小化损失函数值,使得训练集与其他数据集在低维空间中的分布相似度最大化,从而实现了对提升树模型的变量稳定性判定。这种方法能够在保证计算效率的同时,实现对高维空间中特征变量的分布稳定性的可靠判定。它充分利用了提升树模型的特点,并通过语义权重值的计算和特征筛选来解决传统方法中的问题。通过这种方式,可以提高风控模型的性能和泛化能力,从而更好地应对实际应用中的挑战。
2、根据本申请的一个方面,提供了一种适用于提升树模型的变量分布稳定性判定方法,其包括:
3、获取训练数据;
4、将所述训练数据通过基于树模型的特征提取器以得到特征变量的序列;
5、对所述特征变量的序列进行上下文特征变量编码分析以得到上下文特征变量编码特征向量的序列;
6、计算所述上下文特征变量编码特征向量的序列中各个上下文特征变量编码特征向量相对于所述上下文特征变量编码特征向量的序列的整体的语义权重值以得到语义权重值的序列;
7、基于所述语义权重值的序列与预定阈值之间的比较,对所述特征变量的序列进行特征筛选以得到稀疏化特征变量的序列;
8、计算所述特征变量的序列和所述稀疏化特征变量的序列之间的欧式距离;以及
9、以所述欧式距离作为损失函数值,对所述基于树模型的特征提取器进行训练。
10、与现有技术相比,本申请提供的一种适用于提升树模型的变量分布稳定性判定方法,其通过采集训练数据后,在后端引入基于树模型的数据处理和分析算法来进行训练数据的分析,以实现从高维空间到低维空间的特征变换,并在低维空间中进行分布稳定性判定。特别地,在本申请的技术方案中,采用欧式距离作为分布稳定性判定的指标,并将其作为损失函数值,对基于树模型的特征提取器进行训练,通过最小化损失函数值,使得训练集与其他数据集在低维空间中的分布相似度最大化,从而实现了对提升树模型的变量稳定性判定。这种方法能够在保证计算效率的同时,实现对高维空间中特征变量的分布稳定性的可靠判定。它充分利用了提升树模型的特点,并通过语义权重值的计算和特征筛选来解决传统方法中的问题。通过这种方式,可以提高风控模型的性能和泛化能力,从而更好地应对实际应用中的挑战。
本文档来自技高网...【技术保护点】
1.一种适用于提升树模型的变量分布稳定性判定方法,其特征在于,包括:
2.根据权利要求1所述的适用于提升树模型的变量分布稳定性判定方法,其特征在于,对所述特征变量的序列进行上下文特征变量编码分析以得到上下文特征变量编码特征向量的序列,包括:将所述特征变量的序列通过包含嵌入层的上下文编码器以得到所述上下文特征变量编码特征向量的序列。
3.根据权利要求2所述的适用于提升树模型的变量分布稳定性判定方法,其特征在于,计算所述上下文特征变量编码特征向量的序列中各个上下文特征变量编码特征向量相对于所述上下文特征变量编码特征向量的序列的整体的语义权重值以得到语义权重值的序列,包括:以如下公式计算所述上下文特征变量编码特征向量的序列中各个上下文特征变量编码特征向量相对于所述上下文特征变量编码特征向量的序列的整体的语义权重值以得到所述语义权重值的序列;
4.根据权利要求3所述的适用于提升树模型的变量分布稳定性判定方法,其特征在于,响应于所述语义权重值的序列中的被比较的特征变量对应的语义权重值大于所述预定阈值,对所述被比较的特征变量进行特征选择。
5.
6.根据权利要求5所述的适用于提升树模型的变量分布稳定性判定方法,其特征在于,以所述欧式距离作为损失函数值,对所述基于树模型的特征提取器进行训练,包括:以所述欧式距离作为损失函数值,对所述基于树模型的特征提取器进行训练,其中,在对所述基于树模型的特征提取器的每次迭代训练过程中的每次迭代时,对所述稀疏化特征变量的序列进行优化。
...【技术特征摘要】
1.一种适用于提升树模型的变量分布稳定性判定方法,其特征在于,包括:
2.根据权利要求1所述的适用于提升树模型的变量分布稳定性判定方法,其特征在于,对所述特征变量的序列进行上下文特征变量编码分析以得到上下文特征变量编码特征向量的序列,包括:将所述特征变量的序列通过包含嵌入层的上下文编码器以得到所述上下文特征变量编码特征向量的序列。
3.根据权利要求2所述的适用于提升树模型的变量分布稳定性判定方法,其特征在于,计算所述上下文特征变量编码特征向量的序列中各个上下文特征变量编码特征向量相对于所述上下文特征变量编码特征向量的序列的整体的语义权重值以得到语义权重值的序列,包括:以如下公式计算所述上下文特征变量编码特征向量的序列中各个上下文特征变量编码特征向量相对于所述上下文特征变量编码特征向量的序列的整体的语义权重值以得到所述语义权重值的序列;
...
【专利技术属性】
技术研发人员:周维浩,王震,段美宁,
申请(专利权)人:杭银消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。