一种基于决策树的缺失数据填充方法及系统技术方案

技术编号:29673028 阅读:80 留言:0更新日期:2021-08-13 21:54
本发明专利技术提出了一种基于决策树的缺失数据填充方法及系统,包括:判断分析样本缺失的属性值为离散型或者为连续型,并对离散型的样本缺失和连续型的样本缺失分别采用分类树和回归树进行预测填充;对连续型的数据进行归一化处理,并将文本类型的数据转换成数值型类型的数据,以及随机打乱具有一定的排列规律的数据顺序;从整体数据集中筛选出完整样本作为第一轮的训练集,首先将缺失1列的样本数据作为测试集,将决策树模型的预测结果作为缺失数据的值进行填充,并将该填充后的样本数据追加到完整数据集,然后依次对于缺失2、3、……、n列的样本数据进行填充,直到填充数据的精确度低于设置的值终止;保存填充后的数据,删除未填充的数据。

【技术实现步骤摘要】
一种基于决策树的缺失数据填充方法及系统
本专利技术涉及对于常见的缺失数据填充问题,具体涉及为采用机器学习中的决策树算法对缺失的数据进行填充,属于机器学习领域。
技术介绍
现实世界中的大多数数据并非都是完整的,大都是非结构的并且掺杂着异常或缺失的数据。造成数据缺失的因素多种多样,比如人工记录错误、信息遗漏、存储数据的硬件出错等。如果数据缺失严重,对于数据分析、数据挖掘、机器学习研究等造成很大影响。因此,如何高效、准确地填充缺失的数据是数据处理阶段所面临的一个难题。目前存在以下几种主流的处理缺失值的方法:(1)直接删除整条缺失数据,此方法对于数据量很大且缺失值很少的数据集来说是一个可行的方法,但是对于数据本身比较少或者缺失值很多的情况下,简单的直接删除会因为数据少而严重影响数据集的可用性。(2)平均值或者众数填充也是一种常用的数据填充方法,但可能会导致过拟合且容易造成数据偏差。(3)KNN算法,KNN算法在处理数据时比较耗时,且k值的选取非常关键。
技术实现思路
为了解决上述问题,本专利技术提出了一种基于决策树的缺失数据本文档来自技高网...

【技术保护点】
1.一种基于决策树的缺失数据填充方法,其特征在于,包括:/n步骤1、判断分析样本缺失的属性值为离散型或者为连续型,并对离散型的样本缺失和连续型的样本缺失分别采用分类树和回归树进行预测填充;/n步骤2、对连续型的数据进行归一化处理,并将文本类型的数据转换成数值型类型的数据,以及随机打乱具有一定的排列规律的数据顺序;/n步骤3、从整体数据集中筛选出完整样本作为第一轮的训练集,将缺失1列的样本数据作为测试集,将决策树模型的预测结果作为缺失数据的值进行填充,并将该填充后的样本数据追加到完整数据集,直到缺失1列的样本数据填充完毕;将填充后缺失1列的样本数据与之前的完整样本作为第二轮的训练集,将缺失2列的...

【技术特征摘要】
20200211 CN 20201008689841.一种基于决策树的缺失数据填充方法,其特征在于,包括:
步骤1、判断分析样本缺失的属性值为离散型或者为连续型,并对离散型的样本缺失和连续型的样本缺失分别采用分类树和回归树进行预测填充;
步骤2、对连续型的数据进行归一化处理,并将文本类型的数据转换成数值型类型的数据,以及随机打乱具有一定的排列规律的数据顺序;
步骤3、从整体数据集中筛选出完整样本作为第一轮的训练集,将缺失1列的样本数据作为测试集,将决策树模型的预测结果作为缺失数据的值进行填充,并将该填充后的样本数据追加到完整数据集,直到缺失1列的样本数据填充完毕;将填充后缺失1列的样本数据与之前的完整样本作为第二轮的训练集,将缺失2列的样本数据集作为测试集,将该两个缺失属性分别决策树建模预测,并将填充后的样本数据追加到完整数据集,直到缺失2列的样本数据填充完毕;依次类推,对于缺失3、4、……、n列的样本数据进行填充。
步骤4、保存填充后的数据,删除未填充的数据。


2.如权利要求1所述的基于决策树的缺失数据填充方法,其特征在于,所述步骤1中的所述分类树和回归树采用CART分类树和CART回归树。


3.如权利要求1所述的基于决策树的缺失数据填充方法,其特征在于,所述步骤2中的所述对连续型的数据进行归一化处理采用Z-Score标准化。


4.如权利要求1所述的基于决策树的缺失数据填充方法,其特征在于,所述步骤3中的所述n的值为当填充数据的精确度低于一设置的值时确定。


5.如权利要求1所述的基于决策树的缺失数据填充方法,其特征在于,所述步骤4中的所述未填充的数据为缺失大于...

【专利技术属性】
技术研发人员:宋莹戴政君
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1