一种不均衡不完整数据集的建模及缺失值填补方法技术

技术编号:24709271 阅读:98 留言:0更新日期:2020-07-01 00:09
本发明专利技术公开了一种不均衡不完整数据集的建模及缺失值填补方法,属于数据挖掘技术领域。本发明专利技术包括构建模型部分和填补方案部分。在构建模型部分,针对数据的不均衡性,设计了一种距离密度算法应用于TS建模的前件辨识过程;在填补方案部分,针对数据的不完整性,将缺失值视为变量,并令其参与结论参数辨识的迭代学习填补方案,在填补过程中先基于填补的数据集计算结论参数,然后基于调整后的结论参数更新填补值,填补在迭代收敛时完成。本发明专利技术降低了数据集的不均衡性对TS建模的影响,并充分利用了不完整数据集中的数据信息,在不均衡不完整数据集上具有比较理想的填补精度。

【技术实现步骤摘要】
一种不均衡不完整数据集的建模及缺失值填补方法
本专利技术属于数据挖掘
,涉及一种不均衡不完整数据集的建模及缺失值填补方法。
技术介绍
数据缺失以及数据集的不均衡是数据挖掘领域中两个不可避免的问题。数据缺失是指数据集在收集或者保存时由于环境等因素而产生的数据值缺失或者属性缺失;数据集的不均衡是指数据集中的类别的分布存在失衡,不相同的类别样本数目有着很大的距离。数据集的不均衡和缺失广泛存在于数据分析挖掘领域,因此对此类数据集的研究已经受到了越来越多的关注。数据集的不均衡给数据挖掘带来了困难。在模糊划分处理不均衡数据集的过程中,容易产生“均匀效应”现象(ZhouK,YangS.ExploringtheuniformeffectofFCMclustering:Adatadistributionperspective[J].Knowledge-BasedSystems,2016,96:76-83),即将多数类中的样本划分到少数类中,使结果中每个集合中的样本数量大致相同。针对此类现象,研究者提出了基于欠采样的数据预处理模型、基于核函数的聚类算本文档来自技高网...

【技术保护点】
1.一种不均衡不完整数据集的建模及缺失值填补方法,其特征在于,具体如下:/n(1)构建模型/n结合局部密度和局部距离定义了每个样本的距离密度ds

【技术特征摘要】
1.一种不均衡不完整数据集的建模及缺失值填补方法,其特征在于,具体如下:
(1)构建模型
结合局部密度和局部距离定义了每个样本的距离密度dsij的计算方法,并设计辨识前件模型的距离密度算法,简称SD算法:
设有不完整数据集X={XM,XC},其中XM为数据集中缺失值构成的子集,XC为数据集中非缺失值构成的子集,对于任意样本xi,xj∈X,其距离密度dsij为:
dsij=exp(S(xi))×pd(xi,xj)(5)
式中,S(x)i是式(6)中定义的样本xi的局部密度,pd(xi,xj)是由式(7)得到的xi和xj的局部距离;
数据集X中的样本xi的局部密度定义为:



式中,Nj表示由样本xi的K个近邻样本xj组成的集合,其中i=1,2,...,n,n表示样本数量,j=1,2,...,K,K为自定义常数,pd(xi,xj)定义为局部距离,计算方法为:



式中,s是样本属性数量,Iim标记第i个样本的第m个属性值xim是否缺失,Ijm标记第j个样本的第m个属性值xjm是否缺失,计算方法为:



采用SD算法计算出样本的聚类中心,以及聚类中心的个数,然后用得到的聚类中心计算隶属度,最终得到模型的前件参数;
(2)填补方案
基于一种迭代学习的方式更新TS模型的结论参数和填补值:针对样本属性数量为s的不完整数据集X,分别以每维属性作为输出,搭建s个TS模型,每个TS模型的输入为D(m)={D1,D2,...,Dm-1,Dm+1,...Ds},期望输出为Y=Dm,其中m=1,2,...,s,首先对不完整数据集随机初始化得到完整数据集,随后基于最小二乘法计算结论参数,在每个TS模型中,对于第j个样本xj的第i条规则R(i)的加权输入Hj(i)由式(9)得到:
Hj(i)=vj(i)Γ(i)(9)
式中vj(i)表示权重;Γ(i)=[1,xj1(i),...,xj(q-1)(i),xj(q+1)(i),...,xjs(i)]表示经过变量选择之后R(i)的输入变量,其中输入变量xjq(i)被剔除,i=1,2,...,k,j=1,2,...,n,1<q<s,然后计算模型的实际输出值



式中P(i)为由最小二乘公式得到的第i条规则R(i)的结论参数;
通过公式(9)和(10)得到s个TS模型的输出集合其中l表示第l次迭代,表示更新填补值,表示现有数据对应的模型输出,用来计算与相应真实值的均方根误差f(l),然后计算与上一次迭代学习得到的均方根误差f(l-1)的差值|△f|,若大于阀值ε则重复上述步骤进入新一轮学习,否则迭代结束并输出填补后的数据集,这样,以第s维属性为输出的不均衡不完整数据TS建模得以实现。


2.根据权利要求1所述的一种不均衡不完整数据集的建模及缺失值填补方法,其特征在于,
令B表示聚类中心下标集合,记录从数据集样本中选取的类中心下标;然后从非类中心样本中选...

【专利技术属性】
技术研发人员:刘辉张立勇陆艺丹
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1