用于平台在线模型的数据处理方法和装置制造方法及图纸

技术编号:20797964 阅读:44 留言:0更新日期:2019-04-06 11:35
本说明书实施例提供一种用于平台在线模型的数据处理方法和装置,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述方法包括:获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。

Data Processing Method and Device for Platform Online Model

The embodiment of this specification provides a data processing method and device for an on-line platform model, in which the platform supports interactive services between the first class user and the second class user. The method includes acquiring multiple input data and corresponding multiple output data in the first predetermined period of the model, and interacting based on the platform in the first predetermined period of time. Data to determine whether the first predetermined period is an abnormal period; and in the case of determining that the first predetermined period is not an abnormal period, the label values corresponding to the plurality of input data are obtained to obtain a plurality of training samples of the model, in which each training sample includes input data, corresponding output data and corresponding label values.

【技术实现步骤摘要】
用于平台在线模型的数据处理方法和装置
本说明书实施例涉及机器学习
,更具体地,涉及一种用于平台在线模型的数据处理方法和装置。
技术介绍
在机器学习领域,模型的自动重新调整(refit)和自动重新训练(retrain),是智能风控系统的重要组成部分,所述风控系统包括各个场景模型,如防盗用模型、防欺诈模型等。在这些模型中,一些特定的场景会对模型的自动更新提出特殊的要求,通用的自动更新方法将无法适用。比如在商户交易的欺诈风险场景中,商户的交易行为会有很多短期的系统性突变,比如双11、双12等大促活动以及春节等节假日,在这期间商户的交易量及交易流水等都会有很大的突变,而这些突变都是一些短期的变化,并不是常态的趋势性变化,不应该成为风控模型去“适应”的目标,因为风控模型应当保持一定的稳定性,更新的目的主要是适应趋势性的风险变化,如果直接把这些短期突变数据放到模型自动更新里,就会造成模型的频繁波动,不仅不能提升模型性能,还会极大增加模型运营成本。而且这种短期突变并不一定是固定日期,很难用简单的规则进行排除。因此,需要一种更有效的用于所述模型的数据处理方案,以改进模型的自动更新方案。专利技术本文档来自技高网...

【技术保护点】
1.一种用于平台在线模型的数据处理方法,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述方法包括:获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。

【技术特征摘要】
1.一种用于平台在线模型的数据处理方法,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述方法包括:获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。2.根据权利要求1所述的方法,还包括,在获取所述多个训练样本之后,将所述多个训练样本放入训练样本池中。3.根据权利要求2所述的方法,还包括在将所述多个训练样本放入训练样本池之后,通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围;以及在所述性能指标超出预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型。4.根据权利要求3所述的方法,其中,所述性能指标包括以下至少一种:准确率、召回率、AUC、KS值、PSI。5.根据权利要求1所述的方法,其中,所述第一预定时段为过去一天。6.根据权利要求5所述的方法,其中,获取与所述多个输入数据分别相应的标签值包括,在三天之后,获取与所述多个输入数据分别相应的标签值。7.根据权利要求1所述的方法,其中,所述第一预定时段为过去的与当天间隔三天的一天。8.根据权利要求1所述的方法,其中,所述模型输入数据和相应的模型输出数据通过所述模型的运行日志获取。9.根据权利要求1所述的方法,其中,所述平台支持商户与消费者之间的交易业务,所述模型为交易风控模型,其中,所述模型输入数据为交易的特征数据,所述模型输出数据预测该交易是否存在风险,所述标签数据指示该交易是否存在风险,以及,所述交互数据为交易额。10.根据权利要求9所述的方法,其中,所述第一预定时段具有第一预定时长,其中,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段包括,基于所述平台中多个选定商户在所述第一预定时段之前的第一预定数目个具有所述第一预定时长的时段中各个时段的交易额,确定所述第一预定时段内的交易额是否异常,以确定所述第一预定时段是否为异常时段。11.根据权利要求10所述的方法,其中,基于所述各个时段的交易额,确定所述第一预定时段内的交易额是否异常包括,基于所述各个时段的交易额的均值和方差,确定所述第一预定时段内的交易额是否异常。12.根据权利要求10所述的方法,其中,所述选定商户基于以下至少一项确定:商户业务指标;商户在过去一段时间中的正常期经营指标与异常期经营指标的差异性。13.根据权利要求12所述的方法,其中,所述正常期和所述异常期各自包括至少一个具有第二预定时长的时段,所述经营指标包括每时段交易额的均值和/或方差。14.一种用于平台在线模型的数据处理装置,其中,所述平台支持第一类用户与第二类用户之间的交互...

【专利技术属性】
技术研发人员:赵乾坤高利翠陈露佳金宏王维强赵闻彪
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1