一种基于距离函数的缺失值插补方法技术

技术编号:34625993 阅读:58 留言:0更新日期:2022-08-20 09:34
本发明专利技术涉及一种基于距离函数的缺失值插补方法,该方法包括以下步骤:计算插补阈值模块,通过测量类中心与每类数据样本之间的欧几里得距离来确定每类的插补阈值;多重混合插补模块,采用多种单一模型对缺失数据插补多次,从而获得多个完整的插补数据集;选择最优插值模块,利用每类的插补阈值在插补数据集中确定最优的插值。本发明专利技术使用欧几里得距离函数和多种多重插补(MI)模型相结合的方式来处理缺失数据,从而弥补了单一模型的多重插补方法的不足,即同时考虑了数据和模型选择的不确定性,从而来获得比单一模型更好的插补结果。从而来获得比单一模型更好的插补结果。从而来获得比单一模型更好的插补结果。

【技术实现步骤摘要】
一种基于距离函数的缺失值插补方法


[0001]本专利技术涉及数据缺失值处理的技术,尤其是涉及一种基于距离函数的缺失值插补方法,该方法在数据缺失值插补方面有着很好的应用。

技术介绍

[0002]缺失数据是指在数据集中样本记录不完整的情况,可能在某些样本的一个或多个变量存在缺失。现实世界数据的缺失现象存在于多领域中,如工业、医学、商业和科学研究等。数据缺失产生的原因多种多样,主要分为机械原因和人为原因。数据缺失可能会导致许多关键信息丢失,特别是在数据缺失率很高的情况下,导致数据挖掘或机器学习的性能降低。
[0003]目前常用的处理缺失数据的方法就是插补法,其目标是用某种算法对缺失数据进行预测,然后用预测值代替缺失值。常用的插补法有:随机插补、均值插补、中值插补、众数插补、热卡插补和冷卡插补。
[0004]与上面所提的插补法不同,多重插补(MI)对同一个缺失数据生成多个不同的插值,从而得到多个完整数据集,然后再对这些值进行综合处理得到最终插值,MI反映出了缺失数据的不确定性,使得已有的数据得到了充分利用,是一种处理数据缺失的有效方法,但当它考虑插补模型时,通常从候选模型中选择最优的单一模型来插补多次,从而忽略了模型选择的不确定性,为了解决这一问题,本专利技术采用一种基于距离函数的缺失值插补方法来弥补单一模型的多重插补方法的不足,同时考虑数据和模型选择的不确定性,从而来获得比单一模型更好的插补结果。

技术实现思路

[0005]为了解决数据集缺失值的问题,本专利技术公开了一种基于距离函数的缺失值插补方法。
[0006]为此,本专利技术提供了如下技术方案:
[0007]1.一种基于距离函数的缺失值插补方法,其特征在于,该方法包括以下步骤:
[0008]步骤1:计算插补阈值模块,通过测量类中心与每类数据样本之间的欧几里得距离来确定每类的插补阈值。
[0009]步骤2:多重混合插补模块,采用多种单一模型对缺失数据插补多次,从而获得多个完整的插补数据集。
[0010]步骤3:选择最优插值模块,利用每类的插补阈值在插补数据集中确定最优的插值。
[0011]2.根据权利要求1所述的一种基于距离函数的缺失值插补方法,其特征在于,所述步骤1中,计算插补阈值模块,通过测量类中心与每类数据样本之间的欧几里得距离来确定每类的插补阈值,具体步骤为:
[0012]步骤1

1将含有M个类的不完整数据集D按每行是否有缺失值划分为完整子集
D
complete
和不完整子集D
incomplete

[0013]步骤1

2将D
complete
和D
incomplete
按照不同类别划分为D
k_complete
和D
k_incomplete
,其中k=1,2,

,M;
[0014]步骤1

3计算D
k_complete
中每一特征的均值Mean(D
k
(,j)),j表示第j列特征,计算均值公式如下:
[0015][0016]其中,k表示所属的类别,j表示第j列特征,n为D
k_complete
的样本数量;
[0017]步骤1

4计算D
k_complete
中每一特征的标准差SD(D
k
(,j)),j表示第j列特征,计算标准差公式如下:
[0018][0019]其中,k表示所属的类别,j表示第j列特征,n为D
k_complete
的样本数量;
[0020]步骤1

5计算D
k_complete
每一个样本与类中心的欧几里得距离,计算公式如下:
[0021][0022]其中,i表示第i个样本,k表示所属的类别,j表示第j列特征;
[0023]步骤1

6选取每类样本中欧几里得距离中位数为每类的插补阈值,记为T
k

[0024]3.根据权利要求1所述的一种基于距离函数的缺失值插补方法,其特征在于,所述步骤2中多重混合插补模块,采用多种单一模型对缺失数据插补多次,从而获得多个完整的插补数据集,具体步骤为:
[0025]步骤2

1选用n种插补方法,即F1到F
n

[0026]步骤2

2每种方法对缺失数据集分别插补m次,即每种方法返回m个插补数据集,最终生成m
×
n个插补数据集,
[0027]4.根据权利要求1所述的一种基于距离函数的缺失值插补方法,其特征在于,所述步骤3中,选择最优插值模块,利用每类的插补阈值在插补数据集中确定最优的插值,具体步骤为:
[0028]步骤3

1对于第k类不完整数据集D
k_incomplete
,采用步骤2

1和步骤2

2解释的相同过程,生成m
×
n个插补数据集,即
[0029]步骤3

2将生成的插补数据集依次根据不同插补方法计算插补数据集的第i(i=1,2,

,N
k_incomplete
)行样本和k类中心的欧几里得距离值
[0030]步骤3

3选取中最小值,即Dis(D
k_F
(i,))
min
与阈值T
k
进行比较;
[0031]步骤3

4若Dis(D
k_F
(i,))
min
小于或等于阈值T
k
,选用Dis(D
k_F
(i,))
min
对应插补方法的插补结果作为D
k_incomplete
第i行缺失值的插补值,否则,D
k_incomplete
第i行的缺失值用均
值Mean(D
k_complete
)插补,然后再计算插补后的值和k类中心的欧几里得距离,若小于或等于阈值T
k
,最终D
k_incomplete
第i行的缺失值用均值Mean(D
k_cpmplete
)插补,若大于阈值,则用Mean(D
k_cpmplete
)+/

SD(D
k_cpmplete
)插补;
[0032]步骤3

5使用前面步骤3

2,步骤3

3,步骤3

4解释的相同过程,直至i=N
k_incomplete
,即所有缺失数据均采用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于距离函数的缺失值插补方法,其特征在于,该方法包括以下步骤:步骤1:计算插补阈值模块,通过测量类中心与每类数据样本之间的欧几里得距离来确定每类的插补阈值。步骤2:多重混合插补模块,采用多种单一模型对缺失数据插补多次,从而获得多个完整的插补数据集。步骤3:选择最优插值模块,利用每类的插补阈值在插补数据集中确定最优的插值。2.根据权利要求1所述的一种基于距离函数的缺失值插补方法,其特征在于,所述步骤1中,计算插补阈值模块,通过测量类中心与每类数据样本之间的欧几里得距离来确定每类的插补阈值,具体步骤为:步骤1

1将含有M个类的不完整数据集D按每行是否有缺失值划分为完整子集D
complete
和不完整子集D
incomplete
;步骤1

2将D
complete
和D
incomplete
按照不同类别划分为D
k_complete
和D
k_incomplete
,其中k=1,2,

,M;步骤1

3计算D
k_complete
中每一特征的均值Mean(D
k
(,j)),j表示第j列特征,计算均值公式如下:其中,k表示所属的类别,j表示第j列特征,n为D
k_complete
的样本数量;步骤1

4计算D
k_complete
中每一特征的标准差SD(D
k
(,j)),j表示第j列特征,计算标准差公式如下:其中,k表示所属的类别,j表示第j列特征,n为D
k_complete
的样本数量;步骤1

5计算D
k_complete
每一个样本与类中心的欧几里得距离,计算公式如下:其中,i表示第i个样本,k表示所属的类别,j表示第j列特征;步骤1

6选取每类样本中欧几里得距离中位数为每类的插补阈值,记为T
k
。3.根据权利要求1所述的一种基于距离函数的缺失值插补方法,其特征在于,所述步骤2中多重混合插补模块,采用多种单一模型对缺失数据插补多次,从而获得多个完整的插补数据集,具体步骤为:步骤2

1选用n种插补方法,即F1到F
n
;步骤2

【专利技术属性】
技术研发人员:胡晓慧苗世迪周文进
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1