一种模型整合方法及装置制造方法及图纸

技术编号:17995475 阅读:71 留言:0更新日期:2018-05-19 12:34
公开了一种模型整合方法及装置。一种模型整合方法包括:确定待整合的至少2个独立模型,每个独立模型具有1个输出值;从历史事件记录中获取事件数据集;根据所获得的事件数据集,生成整合模型训练样本;利用有监督学习算法对样本进行训练得到整合模型。

【技术实现步骤摘要】
一种模型整合方法及装置
本说明书实施例涉及数据处理
,尤其涉及一种模型整合方法及装置。
技术介绍
智能化或自动化处理的本质,是由计算机根据给定的输入信息,经计算后得到对应输出信息的过程,模型则是用于描述上述输入-输出关系的一种信息。简单的模型可以是根据人工规则建立,在数据时代,基于大数据及机器学习技术进行数据建模则成为主流,目前在多种应用领域中,都已经广泛使用大数据建模来实现各种智能化处理功能,但是随着模型数量的增加,也相应产生了难于管理及资源消耗过多等问题。以风控系统为例,目前以模型驱动的风控策略已被广泛应用,特别是针对一些综合的业务平台,可以基于不同场景不同维度的大数据构建出多种模型,从而实现全面的风险控制。然而,在风险预测覆盖不断完善的同时,模型的数量也随之增长,久而久之会导致整体风控体系越来越庞大,不仅令管理维护成本变得不可控,而且由于不同的模型之间经常存在冗余,实际上也造成了系统处理资源的不必要消耗。
技术实现思路
针对上述技术问题,本说明书实施例提供一种模型整合方法及装置,技术方案如下:根据本说明书实施例的第一方面,提供一种模型整合方法,该方法包括:确定待整合的至少2个独立模型,每个独立模型具有1个输出值;从历史事件记录中获取事件数据集,每条事件数据中包括:每个独立模型针对该事件的预测输出值、该事件的综合标签值;根据所获得的事件数据集,生成整合模型训练样本;利用有监督学习算法对样本进行训练得到整合模型,所述整合模型具有1个整合输出值、且以多个独立模型的输出值作为输入值。根据本说明书实施例的第二方面,提供一种模型整合装置,该装置包括:独立模型确定模块,用于确定待整合的至少2个独立模型,每个独立模型具有1个输出值;事件数据集获取模块,用于从历史事件记录中获取事件数据集,每条事件数据中包括:每个独立模型针对该事件的预测输出值、该事件的综合标签值;训练样本生成模块,用于根据所获得的事件数据集,生成整合模型训练样本;训练模块,用于利用有监督学习算法对样本进行训练得到整合模型,所述整合模型具有1个整合输出值、且以多个独立模型的输出值作为输入值。应用本说明书实施例所提供的技术方案,一方面,可以将多个独立的模型分值整合为一个综合分值,使得输出模型策略更加便于管理,也解决了模型过多所带来的冗余问题,提升系统处理资源的使用效率;另一方面,对于整合得到的模型,可以基于性能监控预警,自动触发整合模型的迭代优化,从而保证综合分值的稳定有效输出。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本说明书实施例的整合模型与独立模型的关系示意图;图2是本说明书实施例的整合模型构建方法的流程图;图3是本说明书实施例的整合模型优化方法的第一种流程图;图4是本说明书实施例的整合模型优化方法的第二种流程图;图5是本说明书实施例的模型整合系统的结构示意图;图6是本说明书实施例的用于构建整合模型的装置的结构示意图;图7是本说明书实施例的用于优化整合模型的装置的结构示意图;图8是用于配置本说明书实施例装置的一种设备的结构示意图。具体实施方式为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。以金融领域的风控场景为例,模型驱动的风控系统需要考虑多种风险类型,针对不同的风险类型,需要构建不同的风控模型,例如反欺诈模型、反盗用模型、反作弊模型等。而在每种风险类型下又会针对不同场景不同维度设计多种专项模型。以反欺诈模型为例,可以进一步细分为离线欺诈者模型、离线欺诈卡模型、在线FP(转账到账户)模型、在线FZ(转账到卡)模型、兼职被骗模型等等。为了防止风险漏过,模型策略大部分采用多个模型并用(即每个模型分值阈值加一定规则并行)的方式,例如以下两条策略并行使用:策略1为:模型A分值大于0.5且交易金额大于10元;策略2为:模型B分值大于0.6且排除双方关系强且交易金额大于100元;长期来看,每新增一个模型,就需要部署新的模型策略,一定时间累积后会造成模型策略冗余且成本增加不可控,针对上述问题,本说明书提出:将不同模型的输出分值进行标准处理后,整合输出一个综合分值。从而使得输出模型策略更加便于管理,解决模型过多所带来的冗余问题,提升系统处理资源的使用效率;另一方面,对于整合得到的模型,可以基于性能监控预警,自动触发整合模型的迭代优化,从而保证综合分值的稳定有效输出。图1所示为整合模型与独立模型的关系示意图:将多个独立模型的输出进行整合,得到1个整合模型,其中每个独立模型具有1个输出值,多个独立模型的输出值经整合模型后统一输出1个整合输出值。下面将分别从“整合模型构建”以及“整合模型优化”两方面,对本说明书所提供的模型整合方案进行说明。图2所示,为本说明书提供的一种整合模型构建方法的流程图,该方法可以包括以下步骤:S101,确定待整合的至少2个独立模型。首先确定需要参与整合的多个独立模型,例如离线欺诈者模型、离线欺诈卡模型、在线FP(转账到账户)模型、在线FZ(转账到卡)模型等等。其中每个独立模型都具有1个专项风险的预测输出分值、若干个输入特征,且不同独立模型之间可能会复用相同的输入特征。为了保证整合模型的性能,这里可以选择性能较好的独立模型,这里的“性能较好”的标准可以是预测覆盖率较高、准确率较高、打扰率较低等等,最好可以具有一定的额外输出增益。例如在一种具体实施方式中,可以选择以下独立模型参与整合:端模型(指部署在手机客户端的风险识别模型)、低风险识别模型、在线风险识别模型、离线风险识别模型。当然,本说明书并不需要对选择独立模型的具体方案进行限定,另外,这里的独立模型也可以是基于规则建立的模型,并不局限于狭义的“利用机器学习建立的模型”。S102,从历史事件记录中获取事件数据集;针对S101中所确定的参与整合的独立模型,从历史事件记录中获取事件数据。这里可以选择某个时间窗口内(例如过去一周,过去一个月等)的发生过的事件记录作为数据源,对于任意事件j,需要获取的数据包括:a)每个独立模型对于事件j的预测输出值;b)事件j的综合风险标签值;如表1所示:事件id模型1分值模型2分值模型3分值综合风险标签10.10.010.3020.550.30.6130.90.80.91……表1其中“风险标签”是指某事件是否实际构成案件的判定结果,需要说明的是,该结果与各模型的预测结果并不一定完全一致,该标签值可以根据人工标注确定,也可以根据用户是否报案确定,本说明书对标签值的具体来源不需要进行限定。S103,根据所获得的事件数据集,生成整合模型训练样本;理想本文档来自技高网...
一种模型整合方法及装置

【技术保护点】
一种模型整合方法,该方法包括:确定待整合的至少2个独立模型,每个独立模型具有1个输出值;从历史事件记录中获取事件数据集,每条事件数据中包括:每个独立模型针对该事件的预测输出值、该事件的综合标签值;根据所获得的事件数据集,生成整合模型训练样本;利用有监督学习算法对样本进行训练得到整合模型,所述整合模型具有1个整合输出值、且以多个独立模型的输出值作为输入值。

【技术特征摘要】
1.一种模型整合方法,该方法包括:确定待整合的至少2个独立模型,每个独立模型具有1个输出值;从历史事件记录中获取事件数据集,每条事件数据中包括:每个独立模型针对该事件的预测输出值、该事件的综合标签值;根据所获得的事件数据集,生成整合模型训练样本;利用有监督学习算法对样本进行训练得到整合模型,所述整合模型具有1个整合输出值、且以多个独立模型的输出值作为输入值。2.根据权利要求1所述的方法,所述根据所获得的事件数据集,生成整合模型训练样本,包括:根据预设的映射规则,对各独立模型的输出值进行映射处理,将映射结果确定为用于训练整合模型的训练特征值。3.根据权利要求2所述的方法,所述对各独立模型的输出值进行映射处理,包括:将独立模型i的输出值的值域划分为Li个子区间;其中Li≥2,i=1,2,3…M,M为参与整合的独立模型数量;对于独立模型i的任意输出值,根据该输出值所处的子区间,确定该输出值对应的映射结果。4.根据权利要求3所述的方法,所述将独立模型i的输出值的值域划分为Li个子区间,包括:针对所获得的事件数据集,根据独立模型i对各事件的输出值的分布情况,将独立模型i的输出值的值域划分为Li个子区间。5.根据权利要求4所述的方法,不同独立模型i所对应的子区间划分数量Li相同,且不同独立模型间的相应子区间对应的输出值分布占比相同。6.根据权利要求3所述的方法,所述对于独立模型i的任意输出值,根据该输出值所处的子区间,确定该输出值对应的映射结果,包括:对于独立模型i的任意输出值,将输出值所处的子区间的WOE分值确定为该输出值的映射结果;独立模型i的每个输出值对应1个训练特征值。7.根据权利要求3所述的方法,所述对于独立模型i的任意输出值,根据该输出值所处的子区间,确定该输出值对应的映射结果,包括:对于独立模型i的任意输出值,根据该输出值所处的子区间,将该输出值转换为长度为Li的One-Hot编码值;独立模型i的每个输出值对应Li个训练特征值。8.根据权利要求1所述的方法,所述方法还包括:在确定当前的整合模型的指标值不满足性能需求的情况下,根据预设的优化训练事件集对整合模型进行优化处理,所述优化处理包括:对多个独立模型的整合方式进行调整、或者对独立模型进行单独调整;其中,所述指标值是基于当前的整合模型针对预设的测试事件集输出的预测结果统计得到。9.一种模型整合装置,该装置包括:独立模型确定...

【专利技术属性】
技术研发人员:高利翠陈露佳赵闻飙
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1