对模型预测值进行融合的方法、装置和设备制造方法及图纸

技术编号：17995214 阅读：39 留言：0更新日期：2018-05-19 12:21

公开了一种对模型预测值进行融合的方法、装置和设备，其中对模型预测值进行融合的方法包括：基于给定的若干样本，按照设定分箱法来分别对在线预测模型的预测值和离线预测模型的预测值进行分箱；根据分箱的结果，将各样本的第一预测值转化为与该第一预测值所处的区间对应的第一区间特征，将各样本的第二预测值转化为与该第二预测值所处的区间对应的第二区间特征；以每一样本对应的所述第一区间特征、所述第二区间特征以及样本的标签构成转化后的样本数据，并利用转化后的样本数据来训练模型，该训练完成的模型用于对在线预测模型的预测值和离线预测模型的预测值进行融合得到最终的预测值。

全部详细技术资料下载

【技术实现步骤摘要】
对模型预测值进行融合的方法、装置和设备
本说明书涉及机器学习
，尤其涉及一种对模型预测值进行融合的方法、装置和设备。
技术介绍
机器学习算法是一类能从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法，被广泛应用于诸多领域中。在实际应用中，包括在线预测模型和离线预测模型，其中，离线预测模型通常以定时任务来实现，其优势是可以纳入维度较高的特征、并使用较为复杂的算法，从而达到较为精准的预测效果；然而，由于特征较多且算法复杂，预测过程通常较为耗时。相比于离线预测模型，在线预测模型可以使用维度较低的特征以及较为简单的算法来达到更高效的预测，其缺点便是特征不够丰富，准确度不高。可见，在线预测模型和离线预测模型各具优势，如何将两者进行合理的融合是目前业内亟待解决的问题。
技术实现思路
针对上述技术问题，本说明书实施例提供一种对模型预测值进行融合的方法、装置和设备，技术方案如下：在一个方面，提出的一种对模型预测值进行融合的方法，包括：基于给定的若干样本，按照设定分箱法来分别对在线预测模型的预测值和离线预测模型的预测值进行分箱，其中，所述若干样本中的每一样本包括：第一预测值、第二预测值以及样本的标签，所述第一预测值由在线预测模型预测得到，第二预测值由离线预测模型预测得到；根据分箱的结果，将各样本的第一预测值转化为与该第一预测值所处的区间对应的第一区间特征，将各样本的第二预测值转化为与该第二预测值所处的区间对应的第二区间特征；以每一样本对应的所述第一区间特征、所述第二区间特征以及样本的标签构成转化后的样本数据，并利用转化后的样本数据来训练模型，该训练完成的模型用于...
对模型预测值进行融合的方法、装置和设备

【技术保护点】
一种对模型预测值进行融合的方法，包括：基于给定的若干样本，按照设定分箱法来分别对在线预测模型的预测值和离线预测模型的预测值进行分箱，其中，所述若干样本中的每一样本包括：第一预测值、第二预测值以及样本的标签，所述第一预测值由在线预测模型预测得到，第二预测值由离线预测模型预测得到；根据分箱的结果，将各样本的第一预测值转化为与该第一预测值所处的区间对应的第一区间特征，将各样本的第二预测值转化为与该第二预测值所处的区间对应的第二区间特征；以每一样本对应的所述第一区间特征、所述第二区间特征以及样本的标签构成转化后的样本数据，并利用转化后的样本数据来训练模型，该训练完成的模型用于对在线预测模型的预测值和离线预测模型的预测值进行融合得到最终的预测值。

【技术特征摘要】
1.一种对模型预测值进行融合的方法，包括：基于给定的若干样本，按照设定分箱法来分别对在线预测模型的预测值和离线预测模型的预测值进行分箱，其中，所述若干样本中的每一样本包括：第一预测值、第二预测值以及样本的标签，所述第一预测值由在线预测模型预测得到，第二预测值由离线预测模型预测得到；根据分箱的结果，将各样本的第一预测值转化为与该第一预测值所处的区间对应的第一区间特征，将各样本的第二预测值转化为与该第二预测值所处的区间对应的第二区间特征；以每一样本对应的所述第一区间特征、所述第二区间特征以及样本的标签构成转化后的样本数据，并利用转化后的样本数据来训练模型，该训练完成的模型用于对在线预测模型的预测值和离线预测模型的预测值进行融合得到最终的预测值。2.根据权利要求1所述的方法，所述设定分箱法包括：基于熵的分箱法、或基于基尼的分箱法、或等频分箱法。3.根据权利要求1所述的方法，所述模型的待训练参数包括与分箱得到的各区间对应的权重，所述权重用于对线预测模型的预测值和离线预测模型的预测值进行融合得到最终的预测值。4.一种对模型预测值进行融合的方法，包括：获取目标用户在第一时间段内产生的业务数据，根据所述业务数据确定输入特征并输入到在线预测模型，输出第一预测值；获取利用离线预测模型得到的与所述目标用户对应的第二预测值，其中，所述离线预测模型的输入特征是根据所述目标用户在第二时间段内产生的业务特征来确定的；获取对在线预测模型的第一预测值和离线预测模型的第二预测值进行分箱的结果，分别确定所述第一预测值所处的第一区间和所述第二预测值所处的第二区间；根据所述第一区间和所述第二区间，利用预先训练得到的模型来对所述第一预测值和所述第二预测值进行融合，得到最终的融合预测值，所述融合预测值用来确定所述目标用户的标签。5.根据权利要求3所述的方法，所述利用预先训练得到的模型来对所述第一预测值和所述第二预测值进行融合得到最终的融合预测值，包括：基于预先确定的与分箱得到的各区间对应的权重，获得与所述第一区间对应的第一权重及与所述第二区间对应的第二权重，所述模型的待训练参数包括与分箱得到的各区间对应的权重；利用所述第一权重和所述第二权重来确定融合预测值。6.根据权利要求5所述的方法，所述利用所述第一权重和所述第二权重来确定融合预测值，包括：将所述第一权重和所述第二权重进行求和，并将求和结果作为融合预测值。7.一种对模型预测值进行融合的装置，包括：分箱单元，基于给定的若干样本，按照设定分箱法来分别对在线预测模型的预测值和离线预测模型的预测值进行分箱，其中，所述若干样本中的每一样本包括：第一预测值、第二预测值以及样本的标签，所述第一预测值由在线预测模型预测得到，第二预测值由离线预测模型预测得到；特征转换单元，根据分箱的结果，将各样本的第一预测值转化为与该第一预测值所处的区间对应的第一区间特征，将各样本的第二预测值转化为与该第二预测值所处的区间对应的第二区间特征；训练单元，以每一样本对应的所述第一区间特征、所述第二区间特征以及样本的标签构成转化后的样本数据，并利用转化后的样本数据来训练模型，该训练完成的模型用于对在线预测模型的预测值和离线预测模型的预测值进行融合得到最终的预测值。8.根据权利要求7所述的装置，所述设定分...

【专利技术属性】
技术研发人员：方文静，周俊，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人