一种基于XGBoost+NGBoost+LR的层次融合模型XNLBoost制造技术

技术编号：28225681 阅读：18 留言：0更新日期：2021-04-28 09:59

本发明专利技术公开一种基于XGBoost+NGBoost+LR的层次融合模型XNLBoost，属于机器学习预测领域。XNLBoost将重要的决策生成树模型XGBoost、NGBoost以及逻辑回归LR模型各自的优点进行有机地融合，形成了一种新的预测效果更好的层次模型。新模型分别对XGBoost和NGBoost使用不同特征进行多折交叉训练，然后LR模型基于XGBoost和NGBoost的输出值进行预测。使用测试集对模型进行验证，实验表明与其他树模型结合对比，本发明专利技术能更好地缓解甚至防止树模型预测过拟合现象，预测结果的准确率提高，层次融合模型XNLBoost更加稳健。模型XNLBoost更加稳健。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于XGBoost+NGBoost+LR的层次融合模型XNLBoost

[0001]本专利技术属于机器学习预测领域，对XGBoost，NGBoost和Logistic Regression(LR)进行有层次的融合，形成了一种新的预测模型XNLBoost。

技术介绍

[0002]机器学习主要关注如何在大量已知数据中通过某些途径学习规律，常用于数据预测。机器学习预测过程包含数据预处理、创建分类模型、训练模型、进行预测。传统的梯度提升决策树GBDT(Gradient Boosting Decision Tree)系列决策树模型只利用一阶导数信息，在机器学习中有重要的作用。多模型融合是机器学习领域的重要研究手段。
[0003]华盛顿大学陈天奇在2011年提出的XGBoost模型对损失函数进行二阶泰勒展开，具有自动选取变量等优势，使得能得到问题的更好近似解，已广泛应用于人工智能领域，并在机器学习和数据挖掘领域的Kaggle著名竞赛中大放异彩。然而XGBoost模型具有参数过多、难以正确调整，易出现过拟合的不足。
[0004]斯坦福大学吴恩达团队在2019年提出了NGBoost，以解决现有梯度提升方法难以处理的通用概率预测中的技术难题。NGBoost在不确定性估计和传统指标上的预测表现都很好。
[0005]2020年Hakan等提出了将NGBoost和XGBoost模型融合的NGBoost
‑
XGBoost Framework，其将NGBoost模块化设计与XGBoost基础学习器混...

【技术保护点】

【技术特征摘要】
1.一种基于XGBoost+NGBoost+LR的层次融合模型XNLBoost，其包含如下步骤：(1)加载获取样本数据集BASE，数据集包含特征序列X和预测目标序列Y；(2)对数据集进行预处理，将数据集按0.8和0.2的比例，并使用train_test_split()方法划分为训练集SetA和测试集SetB；(3)接着使用make_pipeline()方法对特征分量集X进行划分，形成特征分量子集T1和T2，基于T1和T2，由SetA能产生了数据集SetA_T1和SetA_T2；(4)定义和初始化基层模型XGBoost和NGBoost，使用k折交叉训练法，并分别基于SetA_T1和SetA_T2进行训练；(5)XGBoost和NGBoost进行训练结束，将每一轮交叉验证产生的预测值分别构成集合Set_XG_C和Set_NG_C；(6)定义和初始化第二层分类器模型LR，接着分别以Set_XG_C和Set_NG_C作为LR输入数据集进行训练，分别产生输出值u_XG和u_NG，并以u_XG+w*u_NG为输出值(即XNLBoost的预测...

【专利技术属性】
技术研发人员：唐子薇，徐蔚鸿，陈沅涛，
申请(专利权)人：长沙理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人