一种关于土壤数据集的多重插补方法技术

技术编号:33731028 阅读:56 留言:0更新日期:2022-06-08 21:26
本发明专利技术提供了一种基于改进的K近邻多重土壤无机盐占比数据集插补方法。缺失值大量存在于现实数据库中,这不仅严重影响了信息查询的质量,还会扭曲数据挖掘与数据分析的结果,进而误导工作人员决策。解决这一问题的最佳方法是预先填充这些丢失的数据。多重插补已被证明是处理数据缺失问题和解决插补不确定性的有效策略,在处理高维数据的情况下,数据的缺失会引发更严重的问题。在这种情况下,本发明专利技术提供了一种基于改进的K近邻多重插补方法,通过使用目标和候选预测因子之间的相关信息来计算距离,由于只有相关的预测因子有助于计算距离,该方法也适用于高维数据缺失的情况下。该方法也适用于高维数据缺失的情况下。该方法也适用于高维数据缺失的情况下。

【技术实现步骤摘要】
一种关于土壤数据集的多重插补方法


[0001]本专利技术涉及大数据数据集填补领域,具体为一种基于改进的K近邻多重插补方法。

技术介绍

[0002]随着信息时代的发展,大数据逐渐渗透到各个行业当中,由于存储设备损坏,数据录取违反规则或者数据采集不规范,数据采集设备能力限制等问题多种主客观原因造成数据缺失,对于缺失值,数据库中的数据存在不同程度的缺失,降低了数据的可用性。同时,现有的数据分析工具大多是基于完整数据集提出的,无法直接处理含有缺失数据的不完整数据集,传统的处理方法就是仅保留完整的记录用于分析查询,直接丢弃缺失数据简单易行,但当缺失数据比例较大时,此方法会造成原始数据失真,损害推理能力,大量信息的丢失会使数据分布产生偏斜并误导数据分析结论。因此,对缺失数据进行填充是一种更合理且非常必要的方法,对缺失值进行填充,尽可能恢复丢失信息。
[0003](1)K近邻插补(K nearest neighbor imputation,KNNNI)
[0004]K近邻插补是Olga Troyanskaya提出的一种基于数据局部相似性的填充本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于改进的K近邻多重插补方法,通过使用目标和候选预测因子之间的相关信息来计算距离,由于只有相关的预测因子有助于计算距离,该方法也适用于高维数据缺失的情况下,其特征步骤如下:步骤1:使用基于改进的K近邻多重插补方法估算不完整的数据矩阵X,获得参数k和m;步骤2:在数据矩阵X中随机选择一个缺失值,即x
is
;步骤3:使用基于改进的K近邻多重插补方法计...

【专利技术属性】
技术研发人员:程小辉张皓然
申请(专利权)人:桂林理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1