Provides a composite using machine learning model to perform prediction method and system, wherein the composite machine learning model includes at least two types of sub models. The method includes: (A) obtain forecast data records; (B) predictive attribute information generated based on the recorded data and forecasting data record a feature subset of the corresponding prediction samples; (C) the predicted multiple feature subset samples respectively including learning model sub model for composite machine, the forecast results, to get the composite machine learning model to predict the sample in which the composite machine learning model, the sub model and according to the gradient training lifting frame. In this way, multiple types of sub models can be effectively combined to work together, and the advantages of each sub model can be fully exploited to achieve better comprehensive machine learning results.
【技术实现步骤摘要】
利用复合机器学习模型来执行预测的方法及系统
本专利技术的示例性实施例总体说来涉及人工智能领域,更具体地说,涉及一种利用复合机器学习模型来执行预测的方法及系统以及一种训练复合机器学习模型的方法及系统。
技术介绍
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从海量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的训练和/或预测样本,以有助于训练出机器学习模型和/或利用训练好的机器学习模型来执行预估。这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。通过对数据记录的属性信息进行诸如特征工程等处理,可产生包括各种特征的机器学习样本。在实际的机器学习应用中,数据记录的属性信息在形式或含义等方面各有特点,相应地,所产生的特征也在形式或含义等方面存在各种差异,这使得单个机器学习样本中往往存在不同情况的特征。然而,由于应用机器学习技术的场景必然会面临计算资源有限、样本数据不足、特征处理脱离应用场景等客观问题,所以现实中难以找到一种机器学习模型,使其能够在 ...
【技术保护点】
一种利用复合机器学习模型来执行预测的方法,其中,所述复合机器学习模型包括至少两种类型的子模型,所述方法包括:(A)获取预测数据记录;(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;以及(C)将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。
【技术特征摘要】
1.一种利用复合机器学习模型来执行预测的方法,其中,所述复合机器学习模型包括至少两种类型的子模型,所述方法包括:(A)获取预测数据记录;(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;以及(C)将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。2.如权利要求1所述的方法,其中,所述子模型包括至少一个线性子模型和至少一个决策树子模型。3.如权利要求1所述的方法,其中,所述子模型包括至少一个上下层嵌套的复合子模型。4.如权利要求3所述的方法,其中,所述复合子模型的上层模型为一个决策树模型部分,并且,所述复合子模型的下层模型为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。5.如权利要求2所述的方法,其中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的决策树特征子集和预测样本的线性特征子集。6.如权利要求2所述的方法,其中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的决策树特征子集和预测样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。7.如权利要求4所述的方法,其中,在步骤(B)中,基于...
【专利技术属性】
技术研发人员:杨强,戴文渊,陈雨强,郭夏玮,涂威威,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。