The invention provides a method for similarity description of incomplete data sets. For real data, information is always incomplete or incomplete, and the missing (missing) term estimation is made by using the similarity of local data. It mainly includes six steps: 1, the incomplete data sets for data preprocessing, incomplete data, lack of a characteristic of average value of 2, initialization; using kernel fuzzy C means clustering algorithm (KFCM) to cluster the initialized data set, and the use of convex differential (DC) planning non convex objective the function of KFCM are optimized; 3, to obtain data clustering centers and membership, will be equal to the missing data as optimization variables, using k nearest neighbor estimation; 4 fill algorithm (kNNI) estimation of missing data values; 5, 3 and 4 of the valuation steps according to the parameter weighted and optimized to obtain the optimal fill the lack of value update again; meet 6, repeat steps 2 to 5 convergence condition. This method can quickly and accurately estimate the missing values in the incomplete data.
【技术实现步骤摘要】
结合局部信息的不完整数据相似性刻画方法一、
本专利技术涉及一种基于DC规划的不完整数据相似性刻画方法,并利用k近邻填补算法来结合数据间的局部信息,使缺失项填补值或估算更为准确,可应用于诸如社会调查表、金融行业数据、天文采集数据、医疗信息数据或者各种网络数据等存在数据缺失项的数据分析场合。二、
技术介绍
数据缺失在实际中是经常发生的,甚至不可避免的。由于某些信息无法获取或者在采集过程中被遗漏,以及对数据结构的理解差异等原因,部分数据会被标记为空白、未知或由特殊标志表示,这种数据通常被称为缺失数据(missingdata)或者不完整数据(incompletedata)。数据缺失对数据挖掘的过程和结果都有不利影响,会对后续的数据分析造成相当大的困难。数据缺失可能直接影响到挖掘模式发现的准确性和运行性能,甚至导致输出错误的挖掘模型。处理有缺失数据的数据集也是非常困难的,因为现有的数据挖掘算法通常假设输入的数据是无缺失的。因此,如何高效而准确地处理不完整数据集并对其进行后续的数据挖掘和分析,是一个亟待解决的问题。目前处理不完整数据的方法包括:直接删除法,只适用于具有缺失项的样本数很少的情况,否则会导致结果偏差较大;相似性传播算法将全部样本看作网络节点,通过网络中各边的信息传递来确定样本的聚类中心;特征加权惩罚项距离度量在k-means算法基础上,对缺失数据施加相应距离惩罚项,以弥补缺失项在聚类过程中造成的损失;k近邻填补算法根据两个样本间距离,选择不完整数据样本的k个最近邻的平均值进行填充;基于核模糊C均值聚类的不完整数据填补算法,通过引入核方法获得了更优的算法聚类 ...
【技术保护点】
一种结合局部信息的不完整数据相似性刻画方法,其特征在于,包括下列步骤:第一步,对不完整数据集进行数据预处理,对不完整数据的缺失项进行特征平均值初始化;由数据集中包含缺失项的某列特征计算其已知项的平均值,填写缺失项的值,并在算法的初始化阶段由核模糊C均值聚类算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵;第二步,利用核模糊C均值聚类算法(KFCM)对初始化后的数据集合聚类,并利用凸差(DC)规划对KFCM非凸目标函数进行优化;先对聚类中心和数据隶属度的可行域分别凸化处理,将其可行域扩展为相应的凸集;再对KFCM目标函数进行DC分解,将非凸目标函数变为两个凸函数之差的形式;然后利用DCA算法优化上述DC问题,以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数,根据对偶理论定义原DC问题和对偶DC问题的关系,微分并投影到凸化可行域,求得算法的聚类中心和隶属度矩阵;第三步,求得数据聚类中心和隶属度,将数据缺失项视为目标优化变量,记录缺失项的行标号和列标号,利用拉格朗日乘子法和KKT条件求取最优值,即对缺失项求目标函数的导数并令其为零,可优化求解得到其最优的估值;第四步,利用k近邻 ...
【技术特征摘要】
1.一种结合局部信息的不完整数据相似性刻画方法,其特征在于,包括下列步骤:第一步,对不完整数据集进行数据预处理,对不完整数据的缺失项进行特征平均值初始化;由数据集中包含缺失项的某列特征计算其已知项的平均值,填写缺失项的值,并在算法的初始化阶段由核模糊C均值聚类算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵;第二步,利用核模糊C均值聚类算法(KFCM)对初始化后的数据集合聚类,并利用凸差(DC)规划对KFCM非凸目标函数进行优化;先对聚类中心和数据隶属度的可行域分别凸化处理,将其可行域扩展为相应的凸集;再对KFCM目标函数进行DC分解,将非凸目标函数变为两个凸函数之差的形式;然后利用DCA算法优化上述DC问题,以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数,根据对偶理论定义原DC问题和对偶DC问题的关系,微分并投影到凸化可行域,求得算法的聚类中心和隶属度矩阵;第三步,求得数据聚类中心和隶属度,将数据缺失项视为目标优化变量,记录缺失项的行标号和列标号,利用拉格朗日乘子法和KKT条件求取最优值,即对缺失项求目标函数的导数并令其为零,可优化求解得到其最优的估值;第四步,利用k近邻填补算法(kNNI)计算数据缺失项的估计值,将k近邻算法运用到数据填补中,利用与缺失记录最相似k条记录的加权均值作为填补值;第五步,将第三步与第四步的估值按参数加权,并优化获取最优填补值再次更新缺失项;第六步,判断本次缺失项填补值与上一次缺失项填补值之间的差是否小于给定的阈值,迭代更新第二、三、四、五步直至满足收敛条件;对数据集中所有缺失数据项填补更新完成后,通过比较本次与上一次结果之间的误差判断算法是否收敛;若满足算法收敛条件,即误差小于给定阈值,当前更新结果为算法执行的最终结果;否则,更新缺失数据项为当前求得的最优值,重新进行迭代求解过程。2.根据权利要求1所述的结合局部信息的不完整数据相似性刻画方法,其特征在于,在上述第一步中用缺失特征的已知项平均值来初始化缺失项数据,采用核模糊C均值聚类算法初始化聚类中心和隶属度矩阵,减少了后续算法的迭代过程,加快了算法的收敛速度。3.根据权利要求1所述的结合局部信息的不完整数据相似性刻画方法,其特征在于,在上述第二步中核模糊C均值聚类算法的目标函数为:分别对聚类中心和隶属度的可行域空间进行凸化,扩展得到其相应的凸集合。再对核模糊C均值聚类算法的目标函数进行DC分解:Jm(T,V)=G(T,V)-H(T,V)其中,函数G和H在凸可行域中均为凸函数。采用DCA算法来优化上述DC问题,将问题转化为凸函数与一阶线性函数之和的形式,近似逼近凸差化的目标函数,分别求聚类中心和隶属度的次微分,并分别投影到各自的凸化可行域空间中,得到本次迭代的聚类中心和隶属度矩阵...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。