数据空值处理方法、装置及终端设备制造方法及图纸

技术编号:21089543 阅读:42 留言:0更新日期:2019-05-11 09:57
本发明专利技术适用于数据处理技术领域,提供了一种数据空值处理方法、装置及终端设备,包括:对预处理数据进行空值检测;若所述预处理数据中存在空值,则计算所述预处理数据中的各个样本与第一空值所属样本的距离,并按照计算出的距离大小对所述预处理数据中的各个样本排序,得到数据序列,并获取所述数据序列中前K个样本作为临近样本,所述K≥1;对所述临近样本的数值进行加权平均计算,得到第一平均值,并利用所述第一平均值填补所述第一空值。本发明专利技术通过获取距离第一空值最近的样本为临近样本,利用临近样本的数值平均值填充第一空值,从而排除一些无用的数据,提高空值填充的准确性。

【技术实现步骤摘要】
数据空值处理方法、装置及终端设备
本专利技术属于数据处理
,尤其涉及一种数据空值处理方法、装置及终端设备。
技术介绍
在现实中,由于操作问题、仪器问题、系统问题等原因在数据中普遍存在空缺数据情况。目前,国内外已提出很多有关缺失值填充的方法。尽管这些方法在各自的应用环境下得到了很好的效果,但仍然存在一些不足,传统的空值处理方法不能有效利用空值中所蕴含的信息,引用一些无用的数据,导致空值处理准确性差的问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据空值处理方法、装置及终端设备,以解决现有技术中在空值处理时因引用无用数据而导致的空值填充准确性差的问题。本专利技术实施例的第一方面提供了一种数据空值处理方法,包括:对预处理数据进行空值检测;若所述预处理数据中存在空值,则计算所述预处理数据中的各个样本与第一空值所属样本的距离,并按照计算出的距离大小对所述预处理数据中的各个样本排序,得到数据序列,并获取所述数据序列中前K个样本作为临近样本,所述第一空值为所述预处理数据中的任一空值,所述K≥1;对所述临近样本的数值进行加权平均计算,得到第一平均值,并利用所述第一平均值填补所述第一空值本文档来自技高网...

【技术保护点】
1.一种数据空值处理方法,其特征在于,包括:对预处理数据进行空值检测;若所述预处理数据中存在空值,则计算所述预处理数据中的各个样本与第一空值所属样本的距离,并按照计算出的距离大小对所述预处理数据中的各个样本排序,得到数据序列,并获取所述数据序列中前K个样本作为临近样本,所述第一空值为所述预处理数据中的任一空值,所述K≥1;对所述临近样本的数值进行加权平均计算,得到第一平均值,并利用所述第一平均值填补所述第一空值。

【技术特征摘要】
1.一种数据空值处理方法,其特征在于,包括:对预处理数据进行空值检测;若所述预处理数据中存在空值,则计算所述预处理数据中的各个样本与第一空值所属样本的距离,并按照计算出的距离大小对所述预处理数据中的各个样本排序,得到数据序列,并获取所述数据序列中前K个样本作为临近样本,所述第一空值为所述预处理数据中的任一空值,所述K≥1;对所述临近样本的数值进行加权平均计算,得到第一平均值,并利用所述第一平均值填补所述第一空值。2.如权利要求1所述的一种数据空值处理方法,其特征在于,在所述对预处理数据进行空值检测之前,还包括:从数据源中采集原始数据,并对所述原始数据进行预处理,得到所述预处理数据。3.如权利要求1所述的一种数据空值处理方法,其特征在于,所述计算所述预处理数据中的各个样本与第一空值所属样本的距离,并按照计算出的距离大小对所述预处理数据中的各个样本排序,得到数据序列,包括:获取预处理数据中所有样本的空间坐标;根据各个样本的空间坐标及所述第一空值所属样本的空间坐标,计算所述预处理数据中各个样本与所述第一空值所属样本的距离,作为各个样本的相对距离;将各个样本按照相对距离由大到小的顺序进行排序,得到数据序列。4.如权利要求1所述的一种数据空值处理方法,其特征在于,所述获取所述数据序列中前K个样本作为临近样本,包括:获取所述数据序列中前K个样本作为第一样本,并统计各个第一样本的属性,将出现次数最多的属性对应的第一样本作为临近样本。5.如权利要求3所述的一种数据空值处理方法,其特征在于,所述对所述临...

【专利技术属性】
技术研发人员:吴又奎王华青钟秋发
申请(专利权)人:中科恒运股份有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1