一种模型效能的波动识别方法及装置制造方法及图纸

技术编号:24889838 阅读:29 留言:0更新日期:2020-07-14 18:16
本说明书一个或多个实施例提供了一种模型效能的波动识别方法及装置,该方法包括:获取目标模型的训练样本数据和预测业务数据;基于训练样本数据,对目标模型进行模型参数训练,确定各预设数据特征对目标模型的重要性评价变量的变量数值;以及基于训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定预设数据特征对目标模型的预测能力影响变量的变量数值;以及基于预测业务数据和训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各预设数据特征的稳定性评价变量的变量数值;再根据确定出的各变量数值,确定目标模型的模型效能波动数据。

【技术实现步骤摘要】
一种模型效能的波动识别方法及装置
本文件涉及大数据
,尤其涉及一种模型效能的波动识别方法及装置。
技术介绍
目前,随着大数据、人工智能的快速发展,在大数据时代下,机器学习模型在业务中发挥着非常大的作用,其中,基于收集到的历史样本数据对模型参数进行训练,得到训练好的机器学习模型;当模型训练完毕后,将训练好的机器学习模型部署上线,并利用训练好的机器学习模型对当前收集的线上业务数据进行预测。然而,由于机器学习模型一旦训练完毕,其模型参数便已经固定,如果实际应用中的线上业务数据或者业务场景发生变化,那么,可能对模型的应用效果产生巨大的影响,因此,在实际业务中,模型效能监控十分重要。当前,针对模型效能的监控过程,通常在基于模型预测结果,获得实际业务表现反馈数据之后,即经过一段时间的实际业务表现数据收集之后,基于模型训练时模型指标的特征值与基于实际业务表现反馈数据得到的模型指标的特征值进行比对,来确定模型效能,例如,该模型指标可以是分类模型的评价指标auc、ks等。其中,针对特定的模型应用场景,模型的应用效能需要比较长的业务表现周期才能获取到,例如,以信贷违约识别的应用场景为例,先利用训练好的模型基于信贷申请用户的线上业务数据进行违约行为预测,针对放行的信贷申请用户还需要监测其一段时间内的履约行为数据,才能确定该用户是否存在违约行为,再基于该履约行为数据确定模型效能,然而,如果在此过程中,模型的效能大幅下滑,将产生一定程度的业务损失,且由于业务损失已发生则无法补救,因此,可能存在因模型效能的波动导致不必要的业务损失。由此可知,需要提供一种能够更加快速、准确地获知模型效能波动程度的技术方案。
技术实现思路
本说明书一个或多个实施例的目的是提供一种模型效能的波动识别方法。该模型效能的波动识别方法包括:获取目标模型的训练样本数据和预测业务数据。基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值。以及,基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值。以及,基于所述预测业务数据和所述训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各所述预设数据特征的稳定性评价变量的变量数值。根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据。本说明书一个或多个实施例的目的是提供一种模型效能的波动识别装置。该模型效能的波动识别装置包括:数据获取模块,其获取目标模型的训练样本数据和预测业务数据。第一确定模块,其基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值。第二确定模块,其基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值。第三确定模块,其基于所述预测业务数据和所述训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各所述预设数据特征的稳定性评价变量的变量数值。效能波动确定模块,其根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据。本说明书一个或多个实施例的目的是提供一种模型效能的波动识别设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器。所述计算机可执行指令在被执行时使所述处理器获取目标模型的训练样本数据和预测业务数据。基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值。以及,基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值。以及,基于所述预测业务数据和所述训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各所述预设数据特征的稳定性评价变量的变量数值。根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据。本说明书一个或多个实施例的目的是提供一种存储介质,用于存储计算机可执行指令。所述可执行指令在被处理器执行时获取目标模型的训练样本数据和预测业务数据。基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值。以及,基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值。以及,基于所述预测业务数据和所述训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各所述预设数据特征的稳定性评价变量的变量数值。根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据。附图说明为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书一个或多个实施例提供的模型效能的波动识别方法的第一种流程示意图;图2为本说明书一个或多个实施例提供的模型效能的波动识别方法的第二种流程示意图;图3为本说明书一个或多个实施例提供的模型效能的波动识别方法的第三种流程示意图;图4为本说明书一个或多个实施例提供的模型效能的波动识别方法的第四种流程示意图;图5为本说明书一个或多个实施例提供的模型效能的波动识别方法的实现原理示意图;图6为本说明书一个或多个实施例提供的模型效能的波动识别装置的模块组成示意图;图7为本说明书一个或多个实施例提供的模型效能的波动识别设备的结构示意图。具体实施方式为了使本
的人员更好地理解本说明书一个或多个中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一个或多个一部分实施例,而不是全部的实施例。基于本说明书一个或多个中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本本文件的保护范围。需要说明的是,在不冲突的情况下,本说明书中的一个或多个实施例以及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本说明书一个或多个实施例。本说明书一个或多个实施例提供了一种模型效能的波动识别方法及装置,通过在获取到训练样本数据后,确定多个预设数据特征分别对模型的预测能力影响变量的取值;以及在目标模型的训练过程中本文档来自技高网
...

【技术保护点】
1.一种模型效能的波动识别方法,包括:/n获取目标模型的训练样本数据和预测业务数据;/n基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值;以及,/n基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值;以及,/n基于所述预测业务数据和所述训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各所述预设数据特征的稳定性评价变量的变量数值;/n根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据。/n

【技术特征摘要】
1.一种模型效能的波动识别方法,包括:
获取目标模型的训练样本数据和预测业务数据;
基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值;以及,
基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值;以及,
基于所述预测业务数据和所述训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各所述预设数据特征的稳定性评价变量的变量数值;
根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据。


2.根据权利要求1所述的方法,其中,所述基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值,包括:
基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征的模型训练参与数据;
针对每个所述预设数据特征,根据所述模型训练参与数据,确定该预设数据特征对所述目标模型的重要性评价变量的变量数值。


3.根据权利要求1所述的方法,其中,所述基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值,包括:
针对每个所述预设数据特征,基于所述训练样本数据,确定该预设数据特征的样本分类贡献数据,其中,所述样本分类贡献数据用于表征特征对黑样本和白样本的区分能力;
根据所述样本分类识别贡献数据,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值。


4.根据权利要求1所述的方法,其中,所述基于所述预测业务数据和所述训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各所述预设数据特征的稳定性评价变量的变量数值,包括:
针对每个所述预设数据特征,对该预设数据特征的特征值范围进行等宽或等频划分处理,得到多个数据特征区间;
基于所述预测业务数据,确定各所述数据特征区间下的预测数据分布占比;
基于所述训练样本数据,确定各所述数据特征区间下的样本数据分布占比;
根据各所述数据特征区间对应的所述预测数据分布占比和所述样本数据分布占比,确定所述预设数据特征的稳定性评价变量的变量数值。


5.根据权利要求1所述的方法,其中,所述根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据,包括:
根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值,确定所述预设数据特征的特征贡献程度;
根据所述特征贡献程度,确定所述预设数据特征对所述目标模型的模型效能变化影响的特征权重系数;
根据各所述预设数据特征的所述稳定性评价变量的变量数值、以及对应的所述特征权重系数,确定所述目标模型的模型效能波动数据。


6.根据权利要求5所述的方法,其中,所述根据所述特征贡献程度,确定所述预设数据特征对所述目标模型的模型效能变化影响的特征权重系数,包括:
根据各所述预设数据特征的所述特征贡献程度,确定多个所述预设数据特征的平均贡献程度;
根据各所述预设数据特征的所述特征贡献程度、以及所述平均贡献程度,确定所述预设数据特征对所述目标模型的标准化贡献程度;
根据所述标准化贡献程度,确定所述预设数据特征对所述目标模型的模型效能变化影响的特征权重系数。


7.根据权利要求5所述的方法,其中,所述根据各所述预设数据特征的所述稳定性评价变量的变量数值、以及对应的所述特征权重系数,确定所述目标模型的模型效能波动数据,包括:
基于所述特征权重系数,对各所述预设数据特征的所述稳定性评价变量的变量数值进行加权求和,得到所述目标模型的模型效能波动数据。


8.根据权利要求1所述的方法,其中,若所述目标模型包括:二分类模型;
所述基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值,包括:
基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的信息价值指标IV的变量数值。


9.根据权利要求1至8任一项所述的方法,其中,在根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据之后,还包括:
判断所述模型效能波动数据是否满足预设效能波动条件;
若否,则对所述目标模型进行模型参数优化,直到所述目标模型的模型效能波动数据满足预设效能波动条件。


10.一种模型效能的波动识别装置,包括:
数据获取模块,其获取目标模型的训练样本数据和预测业务数据;
第一确定模块,其基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值;
第二确定模块,其基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据...

【专利技术属性】
技术研发人员:纪忠光
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1