【技术实现步骤摘要】
一种基于XGBoost算法的乡村能效数据集缺失值填充方法
[0001]本专利技术属于数据处理
,具体涉及一种基于
XGBoost
算法的乡村能效数据集缺失值填充方法
。
技术介绍
[0002]随着科技的发展,数据处理也成为我们生活
、
工作
、
研究中必不可少的一部分
。
而伴随着数据的增多,不可避免地会丢失掉部分数据,可能由于技术的限制,对数据采集得不完整;也可能因为采集过程出现了人为失误导致数据采集得不完整,因为这些客观和主观因素,导致所采集到的数据多多少少会出现一些缺失,缺失数据也成为了一个基本研究问题
。
在数据科学领域,数据缺失问题是一个普遍而重要的问题
。
随着数据科学和计算机技术的发展,以机器学习为主导的数据处理和分析方法应运而生,大大改善了数据科学的现状
。
[0003]在许多研究中,将缺失数据部分直接删除作为对缺失数据的处理方式,这种方式简单,快捷,对于大量数据中只有少量缺失值的数据 ...
【技术保护点】
【技术特征摘要】
1.
一种基于
XGBoost
算法的乡村能效数据集缺失值填充方法,其特征在于,具体包括如下步骤:步骤
(1)、
获取目标样本集;所述目标样本集包括乡村能效数据集缺失特征值的缺失样本集和不缺失特征值的非缺失样本集;步骤
(2)、
根据缺失特征值的特征重要性对所述乡村能效数据集的缺失样本集进行排序,得到若干次循环的样本组;所述循环样本组包括以当前缺失样本集中特征重要性最大的样本为标签的特征样本和其余特征下的样本组建的样本组,各所述循环样本组包含上一层循环中缺失值填充后的标签样本;步骤
(3)、
根据所述循环样本组构建循环
XGBoost
算法;所述循环
XGBoost
的每一层循环都与对应循环层中特征重要性最大的缺失特征样本对应;步骤
(4)、
对缺失值进行预测和填充;采用以当前循环层对应的最大特征重要性的特征样本下的非缺失样本及其对应的其它特征下的样本组构建的样本集作为训练集训
,
循环
XGBoost
回归模型;将剩余样本组构建的样本集作为测试集,预测当前循环层对应的标签缺失值,对当前循环层对应的以最大特征重要性的特征样本作为标签的样本中的缺失值进行填充;当前循环层对应的样本组是除去当前循环中最大特征重要性的特征样本外以0为缺失填充值的非缺失样本组
。2.
如权利要求1所述的一种基于
XGBoost
算法的乡村能效数据集缺失值填充方法,其特征在于,步骤
(1)
中,若一个样本在任一特征属性上缺失对应的特征值,则该样本属于缺失样本集,若一个样本在全部特征属性上均有对应的特征值,则该样本属于非缺失样本集
。3.
如权利要求1所述的一种基于
XGBoost
算法的乡村能效数据集缺失值填充方法,其特征在于,步骤
(2)
中,所述根据缺失特征值的特征重要性对所述缺失样本集进行排序,得到若干...
【专利技术属性】
技术研发人员:陈沛光,董吉哲,刘元琦,刘鹏,宋磊,王梓蘅,郑丹辰,王勇,高垚,王雨薇,田子豪,张圆美,孟繁波,丁一涵,郝思马,韩旭,赵博,吕长会,
申请(专利权)人:国网吉林省电力有限公司经济技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。