【技术实现步骤摘要】
一种关于土壤数据集的多重插补方法
[0001]本专利技术涉及大数据数据集填补领域,具体为一种基于改进的K近邻多重插补方法。
技术介绍
[0002]随着信息时代的发展,大数据逐渐渗透到各个行业当中,由于存储设备损坏,数据录取违反规则或者数据采集不规范,数据采集设备能力限制等问题多种主客观原因造成数据缺失,对于缺失值,数据库中的数据存在不同程度的缺失,降低了数据的可用性。同时,现有的数据分析工具大多是基于完整数据集提出的,无法直接处理含有缺失数据的不完整数据集,传统的处理方法就是仅保留完整的记录用于分析查询,直接丢弃缺失数据简单易行,但当缺失数据比例较大时,此方法会造成原始数据失真,损害推理能力,大量信息的丢失会使数据分布产生偏斜并误导数据分析结论。因此,对缺失数据进行填充是一种更合理且非常必要的方法,对缺失值进行填充,尽可能恢复丢失信息。
[0003](1)K近邻插补(K nearest neighbor imputation,KNNNI)
[0004]K近邻插补是Olga Troyanskaya提出的一种基于 ...
【技术保护点】
【技术特征摘要】
1.一种基于改进的K近邻多重插补方法,通过使用目标和候选预测因子之间的相关信息来计算距离,由于只有相关的预测因子有助于计算距离,该方法也适用于高维数据缺失的情况下,其特征步骤如下:步骤1:使用基于改进的K近邻多重插补方法估算不完整的数据矩阵X,获得参数k和m;步骤2:在数据矩阵X中随机选择一个缺失值,即x
is
;步骤3:使用基于改进的K近邻多重插补方法计...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。