【技术实现步骤摘要】
特征稳定度检测方法、模型更新方法、设备和存储介质
[0001]本申请涉及数据处理领域,尤其涉及一种特征稳定度检测方法、模型更新方法、设备和存储介质。
技术介绍
[0002]基于机器学习进行模型开发时,由于模型是以特定时期的样本开发的,而在实际应用中,由于采样策略变化等原因,原样本开发的模型不一定适用于新样本,此时需要对原样本和新样本的相应特征进行稳定度测试,如果特征不满足稳定度要求,则需要重新调整模型或者删除不稳定特征,因此,如何找到不稳定的特征并更新模型成为研究重点。
[0003]相关技术中,常用群体稳定性指标(Population Stability Index,简称PSI)检查样本的特征稳定度,具体地:首先对特征进行分箱,计算每箱中实际特征目标占比减去开发特征目标占比,再乘以这两者相除的对数,得到某一分箱的PSI,最后将所有分箱的PSI加和,得到该特征的PSI。但采用PSI得到的稳定度测试结果不准确,存在合理波动被误判为不稳定的情况。
技术实现思路
[0004]本申请提供一种特征稳定度检测方法、 ...
【技术保护点】
【技术特征摘要】
1.一种特征稳定度检测方法,其特征在于,包括:获取第一模型面向目标应用的应用期间多个第一采样时间点依次采集的第一特征的多维度特征,所述第一特征为训练和测试所述第一模型的第一特征集合中的特征,多维度特征为特征的描述性数据;将所述多个第一采样时间点对应第一特征的多维度特征进行拼接得到的第一时间序列输入稳定度初筛模型,得到所述稳定度初筛模型输出的所述第一特征对应的稳定度;响应于所述稳定度大于稳定度阈值,在所述第一特征集合中删除所述第一特征,得到第二特征集合,采用所述第二特征集合对所述第一模型进行训练,得到第二模型;基于所述第一特征集合和所述第二特征集合,确定所述第一特征对所述第一模型的影响度;响应于所述影响度大于影响度阈值,确定所述第一特征为所述第一模型的不稳定特征。2.根据权利要求1所述的特征稳定度检测方法,其特征在于,所述基于所述第一特征集合和所述第二特征集合,确定所述第一特征对所述第一模型的影响度,包括:基于所述第一特征集合,确定所述第一模型对应测试样本集合的AUC为第一AUC;基于所述第二特征集合,确定所述第二模型对应所述测试样本集合的AUC为第二AUC;确定所述第一特征对所述第一模型的影响度为所述第一AUC与所述第二AUC的差值。3.根据权利要求1或2所述的特征稳定度检测方法,其特征在于,所述稳定度初筛模型是通过以下方式训练得到的:获取所述第一模型面向目标应用的应用期间多个第二采样时间点采集的第二特征的多维度特征,所述第二特征为所述第一特征集合中的特征;将所述多个第二采样时间点对应的第二特征的多维度特征进行拼接处理,得到所述第二特征对应的第二时间序列;采用所述第二时间序列对稳定度初筛模型进行训练,得到训练好的稳定度初筛模型。4.根据权利要求3所述的特征稳定度检测方法,其特征在于,所述稳定度初筛模型为门控循环单元GRU模型,所述采用所述第二时间序列对稳定度初筛模型进行训练,得到训练好的稳定度初筛模型,包括:将所述第二时间序列输入GRU模型,基于反向传播原理,得到训练好的GRU模型。5.根据权利要求3所述的特征稳定度检测方法,其特征在于,所述多维度特征包括统计性特征和模型贡献度特征,其中:统计性特征包括待筛选变量分布的最小值、中位数、三分位数、最大值、范围、四分位数范围、均值、标准差、中位数绝对偏差、变异系数、峰度和偏度中的至少一种;模型贡献度特征包括待筛选变量在第一模型的信息价值IV值、群体稳定性指标PSI以及在第一模型的特征重要度中的至少一种。6.根据权利要求3所述的特征稳定度检测方法,其特征在于,所述第二时间序列为N*M矩阵,其中,N为第二采样时间点的个数,M为多维度特征的维度;所述采用所述第二时间序列对稳定...
【专利技术属性】
技术研发人员:张丝雨,崔玲龙,闫龙,胡博文,张天铭,夏凡,宋雨伦,李大中,
申请(专利权)人:联通数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。