当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于动态权重D-XGBoost模型的预测方法及系统技术方案

技术编号:28376258 阅读:27 留言:0更新日期:2021-05-08 00:03
本发明专利技术公开了一种基于动态权重D‑XGBoost模型的预测方法及系统,该方法包括:获取数据集并对数据集中的数据进行格式统一,得到统一的数据;对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集;基于动态权重策略的D‑XGBoost模型对预处理后的数据集进行参数预测。该系统包括:数据预处理模块和参数预测模块。通过使用本发明专利技术,避免了少数类样本容易与周围的多数类样本产生重叠难以分类的问题。本发明专利技术作为一种基于动态权重D‑XGBoost模型的预测方法及系统,可广泛应用于数据预测领域。

【技术实现步骤摘要】
一种基于动态权重D-XGBoost模型的预测方法及系统
本专利技术涉及数据预测领域,尤其涉及一种基于动态权重D-XGBoost模型的预测方法及系统。
技术介绍
随着互联网的普及,各种数据的积累,大数据技术的兴起以及机器学习算法的飞速发展,使用机器学习的方法实现多来源、多种类数据的识别与预测越来越普遍。目前部分方法对数据预处理无法克服非平衡数据集的数据分布问题,容易产生分布边缘化问题,这种边界模糊性,虽然使数据集的平衡性得到了改善,但加大了后续分类算法进行分类的难度;还有的方法采用的是距离优先的算法,在面临均匀分布的数据集时具有较好的聚类性能,但是面对非均匀数据集时,其聚类性能有所损失。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种基于动态权重D-XGBoost模型的预测方法及系统,避免了SMOTE算法生成的少数类样本容易与周围的多数类样本产生重叠难以分类的问题。本专利技术所采用的第一技术方案是:一种基于动态权重D-XGBoost模型的预测方法,包括以下步骤:获取数据集并对数据集中的数据进行格本文档来自技高网...

【技术保护点】
1.一种基于动态权重D-XGBoost模型的预测方法,其特征在于,包括以下步骤:/n获取数据集并对数据集中的数据进行格式统一,得到统一的数据;/n对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集;/n基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测。/n

【技术特征摘要】
1.一种基于动态权重D-XGBoost模型的预测方法,其特征在于,包括以下步骤:
获取数据集并对数据集中的数据进行格式统一,得到统一的数据;
对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集;
基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测。


2.根据权利要求1所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集这一步骤,其具体包括:
基于主成分分析法对统一的数据进行数据降维,得到降维后的数据;
基于最邻近规则算法对降维后的数据进行数据清洗,得到少数类样本集;
基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集。


3.根据权利要求2所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述基于主成分分析法对统一的数据进行数据降维,得到降维后的数据这一步骤,其具体包括:
从统一的数据中采集出p维随机向量X=(X1,X2,...,Xp)T,并构造样本矩阵;
对样本矩阵进行均值归零化处理,得到标准化矩阵;
计算标准化矩阵的自相关矩阵;
计算自相关矩阵的单位特征向量并根据单位特征向量转换选取主成分,得到降维后的数据。


4.根据权利要求3所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集这一步骤,其具体包括:
对少数类样本集中的少数类样本x,以欧氏距离为标准计算该样本到少数类样本集中所有样本的距离,得到对应的n个近邻;
根据样本不平衡比例设置采样比例并确定采样倍率N;
对于少数类样本x,基于采样倍率从对应的n个近邻中随机选择若干个样本,得到对应选择的近邻xn;
对于近邻xn,分别与原样本集合构建新样本,得到预处理后的数据集。


5.根据权利要求4所述一种基于动态权重DΩXGBoost模型的预测方法,其特征在于,所述对于近邻xn,分别与原样本集合构建新样本这一步骤的具体计算公式如下:

<...

【专利技术属性】
技术研发人员:卢宇彤蓝嘉璐陈志广
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1