基于机器学习来提供预测结果的方法及系统技术方案

技术编号:18459229 阅读:26 留言:0更新日期:2018-07-18 12:52
提供一种基于机器学习来提供预测结果的方法及系统,所述方法包括:(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息;(B)获取所述历史样例关于预测问题的结果信息,其中,针对所述历史样例之中不具有关于预测问题的真实结果的历史样例,将历史样例的预测结果作为历史样例的结果信息;(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本;(D)利用基于机器学习技术训练出的预测模型,针对待预测样例的预测样本来提供待预测样例的预测结果。根据所述方法和系统,能够适当地参考历史样例和待预测样例这两者来针对待预测样例给出预测结果。

Method and system for providing prediction results based on machine learning

A method and system are provided for providing prediction results based on machine learning, including: (A) acquiring attribute information of the sample to be predicted and attribute information of a historical sample that occurred before the predicted sample; (B) obtaining the result information about the prediction problem of the historical sample, in which the historical sample is described. There are no historical examples of the real results of the prediction problem, and the results of the historical samples are used as the result information of the historical examples; (C) the data of the acquired samples, the attribute information of the historical samples, and the result information of the historical samples are generated to be predicted samples to be predicted; (D The prediction model based on machine learning technology is used to provide predictive samples for the prediction sample to provide predictive results for the predicted samples. According to the method and system, we can properly refer to historical samples and predicted samples to give prediction results for the prediction samples.

【技术实现步骤摘要】
基于机器学习来提供预测结果的方法及系统
本专利技术总体说来涉及人工智能领域,更具体地说,涉及一种基于机器学习来提供待预测样例关于预测问题的预测结果的方法及系统。
技术介绍
在实践中,为了基于机器学习技术来提供待预测样例关于预测问题的预测结果,除了需要待预测样例自身的属性信息以外,常常还需要获取相关的历史信息,即,在待预测样例之前发生的历史样例的属性信息。例如,如果想利用机器学习模型来预测用户的当前交易是否为欺诈交易,还需要获取用户的历史交易的情况,并根据当前交易与历史交易的对比来给出预测结果。然而,在很多情况下,历史样例的属性信息在应用时,很容易出现各种问题。比如,在上述欺诈交易的示例中,现实中常常发生连续欺诈交易的现象(以信用卡盗刷为例,如果第一笔盗刷没有被发现,则会接连发生多起盗刷),此时,历史样例中混入了异常样例,导致历史样例与当前样例之间的对比关系无法有效地反映出正常样例与异常样例之间的对比关系,使得模型无法有效地工作。例如,假设机器学习模型用于预测信用卡欺诈交易,模型的正样本对应于当前样例为异常样例,而模型的负样本对应于当前样例为正常样例。进一步地,假设模型的样本特征中涉及上一笔交易的刷卡地点与当前笔交易的刷卡地点,那么对于作为正样本的连续两次盗刷之中的第二次盗刷而言,模型很难通过该样本学习到如何准确预测盗刷。具体说来,若某信用卡用户人在中国,而他的信用卡在美国被连续盗刷了两次,那么第二次盗刷与第一次盗刷同样都作为模型的正样本。然而,对于与第二次盗刷对应的正样本而言,上一笔刷卡地点为美国,而当前笔刷卡的地点同样是在美国,在这种样例下,模型会容易倾向于认为上述第二次在美国刷卡的样例(即,连续两次在美国刷卡中的第二次刷卡)容易发生欺诈,而这是与常识不符的,由此可见,按照这种方式训练出的模型难以有效地预测欺诈交易。针对上述问题,会考虑仅使用符合条件的历史样例,例如,在上述关于欺诈交易的示例中,仅使用历史上的正常交易而剔除掉历史上的欺诈交易。然而,在执行预测的当时(例如,在线预估的场景中),由于近期交易的交易状态尚不可得,导致无法从近期交易中筛选出正常交易;另一方面,近期交易又是能够帮助判断当前交易是否为欺诈交易的关键因素,如果直接忽略掉交易状态未知的所有近期交易则会严重影响模型的效果,因此,仅使用符合条件的历史样例的方案在现实中可行性较差,难以获得有效的预测结果。综上所述,在面对机器学习的具体问题时,需要从模型设计角度进行改进,以在有限的计算资源(例如,硬件资源在处理数据的容量和速度方面的限制)和/或数据资源(例如,缺乏足够的用于训练机器学习模型的训练样本)下有效解决历史样例状态不明的问题,进而确保机器学习模型的预测效果。
技术实现思路
本专利技术的示例性实施例旨在克服基于机器学习模型的现有预测方案难以有效地从历史样例进行学习的缺陷。根据本专利技术的示例性实施例,提供一种基于机器学习来提供待预测样例关于预测问题的预测结果的方法,包括:(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息;(B)获取所述历史样例关于预测问题的结果信息,其中,针对所述历史样例之中不具有关于预测问题的真实结果的历史样例,将历史样例的预测结果作为历史样例的结果信息;(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本;以及(D)利用基于机器学习技术训练出的预测模型,针对待预测样例的预测样本来提供待预测样例的预测结果。可选地,在所述方法中,在步骤(B)中,还获取历史样例的结果信息的置信度,并且,在步骤(C)中,基于获取的待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本。可选地,在所述方法中,在步骤(B)中,所述历史样例的预测结果由所述预测模型或与所述预测模型的上一轮迭代对应的前次模型所提供。可选地,在所述方法中,在步骤(B)中,针对具有真实结果的历史样例,将历史样例的真实结果作为历史样例的结果信息。可选地,在所述方法中,所述预测模型具有以下训练过程,在所述训练过程中,按照与预测样本一致的方式,将训练样本所基于的历史样例的真实结果或预测结果作为所述历史样例的结果信息,其中,所述训练样本所基于的历史样例的预测结果由当前训练出的预测模型来提供。可选地,在所述方法中,在所述训练过程中,所述预测模型针对训练样本进行迭代训练,使得训练样本所基于的历史样例的预测结果随着迭代而不断更新。可选地,所述方法在线提供待预测样例关于预测问题的预测结果。可选地,在所述方法中,通过以下方式中的至少一种来生成待预测样例的预测样本的特征:(C1)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度来筛选出至少一部分历史样例,并基于筛选出的所述至少一部分历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征;(C2)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度对所述历史样例的相应属性信息进行加权,并基于加权后的历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征;以及(C3)分别基于待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本的特征。可选地,在所述方法中,待预测样例对应于当前交易,历史样例对应于在当前交易之前发生的预定数量的先前交易和/或在当前交易之前的预定时间段内发生的先前交易,预测问题为相关交易是否为欺诈交易。可选地,在所述方法中,在步骤(B)中,针对不具有真实结果的历史样例,基于预测模型的算法或独立于预测模型的算法来获得历史样例的预测结果的置信度,作为历史样例的结果信息的置信度;针对具有真实结果的历史样例,将历史样例的真实结果的置信度设置为表示高置信水平的预设值,作为历史样例的结果信息的置信度。可选地,所述方法还包括:(E)接收待预测样例关于预测问题的真实结果,其中,所述真实结果连同相应的待预测样例被用于训练所述预测模型。根据本专利技术的另一示例性实施,提供一种基于机器学习来提供待预测样例关于预测问题的预测结果的系统,包括:属性信息获取装置,用于获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息;结果信息获取装置,用于获取所述历史样例关于预测问题的结果信息,其中,针对所述历史样例之中不具有关于预测问题的真实结果的历史样例,结果信息获取装置将历史样例的预测结果作为历史样例的结果信息;样本生成装置,用于基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本;以及预测结果提供装置,用于利用基于机器学习技术训练出的预测模型,针对待预测样例的预测样本来提供待预测样例的预测结果。可选地,在所述系统中,结果信息获取装置还获取历史样例的结果信息的置信度,并且,样本生成装置基于获取的待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本。可选地,在所述系统中,由结果信息获取装置获取的所述历史样例的预测结果由所述预测模型或与所述预本文档来自技高网
...

【技术保护点】
1.一种基于机器学习来提供待预测样例关于预测问题的预测结果的方法,包括:(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息;(B)获取所述历史样例关于预测问题的结果信息,其中,针对所述历史样例之中不具有关于预测问题的真实结果的历史样例,将历史样例的预测结果作为历史样例的结果信息;(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本;以及(D)利用基于机器学习技术训练出的预测模型,针对待预测样例的预测样本来提供待预测样例的预测结果。

【技术特征摘要】
1.一种基于机器学习来提供待预测样例关于预测问题的预测结果的方法,包括:(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息;(B)获取所述历史样例关于预测问题的结果信息,其中,针对所述历史样例之中不具有关于预测问题的真实结果的历史样例,将历史样例的预测结果作为历史样例的结果信息;(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本;以及(D)利用基于机器学习技术训练出的预测模型,针对待预测样例的预测样本来提供待预测样例的预测结果。2.如权利要求1所述的方法,其中,在步骤(B)中,还获取历史样例的结果信息的置信度,并且,在步骤(C)中,基于获取的待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本。3.如权利要求2所述的方法,其中,在步骤(B)中,所述历史样例的预测结果由所述预测模型或与所述预测模型的上一轮迭代对应的前次模型所提供。4.如权利要求3所述的方法,其中,在步骤(B)中,针对具有真实结果的历史样例,将历史样例的真实结果作为历史样例的结果信息。5.如权利要求4所述的方法,其中,所述预测模型具有以下训练过程,在所述训练过程中,按照与预测样本一致的方式,将训练样本所基于的历史样例的真实结果或预测结果作为所述历史样例的结果信息,其中,所述训练样本所基于的历史样例的预测结果由当前训练出的预测模型来提供。6.如权利要求5所述的方法,其中,在所述训练过程中,所述预测模型针对训练样本进行迭代训练,使得训练样本所基于的历史样例的预测结果随着迭代而不断更新。7.如权利要求2所述的方法,其中,通过以下方式中的至少一种来生成待预测样例的预测样本的特征:(C1)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度来筛选出至少一部分历史样例,并基于筛选出的所述至少一部分历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征;(C2)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度对所述历史样例的相应属性信息进行加权,并基于加权后的历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征;以及(C3)分别基于待预测样例...

【专利技术属性】
技术研发人员:黄晶陈雨强
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1