结合局部信息的不完整数据相似性刻画方法技术

技术编号：17516675 阅读：58 留言：0更新日期：2018-03-21 01:15

本发明专利技术提供了一种不完整数据集的相似性刻画方法，针对真实数据信息常存在不完整或不完全的情况，利用数据局部信息的相似性进行缺失(missing)项估计。主要包括六个步骤：1、对不完整数据集进行数据预处理，对不完整数据的缺失项进行特征平均值初始化；2、利用核模糊C均值聚类算法(KFCM)对初始化后的数据集进行聚类，并利用凸差(DC)规划对KFCM的非凸目标函数进行优化；3、求得数据聚类中心和隶属度，将数据缺失项等同地视为目标优化变量进行估值；4、利用k近邻填补算法(kNNI)估算数据缺失值；5、将步骤3与4的估值按参数加权，并优化获取最优填补值再次更新缺失项；6、重复步骤2‑5至迭代收敛条件满足。本方法能快速准确地估算出不完整数据中缺失值。

An incomplete data similarity characterization method combined with local information

The invention provides a method for similarity description of incomplete data sets. For real data, information is always incomplete or incomplete, and the missing (missing) term estimation is made by using the similarity of local data. It mainly includes six steps: 1, the incomplete data sets for data preprocessing, incomplete data, lack of a characteristic of average value of 2, initialization; using kernel fuzzy C means clustering algorithm (KFCM) to cluster the initialized data set, and the use of convex differential (DC) planning non convex objective the function of KFCM are optimized; 3, to obtain data clustering centers and membership, will be equal to the missing data as optimization variables, using k nearest neighbor estimation; 4 fill algorithm (kNNI) estimation of missing data values; 5, 3 and 4 of the valuation steps according to the parameter weighted and optimized to obtain the optimal fill the lack of value update again; meet 6, repeat steps 2 to 5 convergence condition. This method can quickly and accurately estimate the missing values in the incomplete data.

全部详细技术资料下载

【技术实现步骤摘要】
结合局部信息的不完整数据相似性刻画方法一、
本专利技术涉及一种基于DC规划的不完整数据相似性刻画方法，并利用k近邻填补算法来结合数据间的局部信息，使缺失项填补值或估算更为准确，可应用于诸如社会调查表、金融行业数据、天文采集数据、医疗信息数据或者各种网络数据等存在数据缺失项的数据分析场合。二、
技术介绍
数据缺失在实际中是经常发生的，甚至不可避免的。由于某些信息无法获取或者在采集过程中被遗漏，以及对数据结构的理解差异等原因，部分数据会被标记为空白、未知或由特殊标志表示，这种数据通常被称为缺失数据(missingdata)或者不完整数据(incompletedata)。数据缺失对数据挖掘的过程和结果都有不利影响，会对后续的数据分析造成相当大的困难。数据缺失可能直接影响到挖掘模式发现的准确性和运行性能，甚至导致输出错误的挖掘模型。处理有缺失数据的数据集也是非常困难的，因为现有的数据挖掘算法通常假设输入的数据是无缺失的。因此，如何高效而准确地处理不完整数据集并对其进行后续的数据挖掘和分析，是一个亟待解决的问题。目前处理不完整数据的方法包括：直接删除法，只适用于具有缺失项的样本数很少的情况，否则会导致结果偏差较大；相似性传播算法将全部样本看作网络节点，通过网络中各边的信息传递来确定样本的聚类中心；特征加权惩罚项距离度量在k-means算法基础上，对缺失数据施加相应距离惩罚项，以弥补缺失项在聚类过程中造成的损失；k近邻填补算法根据两个样本间距离，选择不完整数据样本的k个最近邻的平均值进行填充；基于核模糊C均值聚类的不完整数据填补算法，通过引入核方法获得了更优的算法聚类...
结合局部信息的不完整数据相似性刻画方法

【技术保护点】
一种结合局部信息的不完整数据相似性刻画方法，其特征在于，包括下列步骤：第一步，对不完整数据集进行数据预处理，对不完整数据的缺失项进行特征平均值初始化；由数据集中包含缺失项的某列特征计算其已知项的平均值，填写缺失项的值，并在算法的初始化阶段由核模糊C均值聚类算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵；第二步，利用核模糊C均值聚类算法(KFCM)对初始化后的数据集合聚类，并利用凸差(DC)规划对KFCM非凸目标函数进行优化；先对聚类中心和数据隶属度的可行域分别凸化处理，将其可行域扩展为相应的凸集；再对KFCM目标函数进行DC分解，将非凸目标函数变为两个凸函数之差的形式；然后利用DCA算法优化上述DC问题，以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数，根据对偶理论定义原DC问题和对偶DC问题的关系，微分并投影到凸化可行域，求得算法的聚类中心和隶属度矩阵；第三步，求得数据聚类中心和隶属度，将数据缺失项视为目标优化变量，记录缺失项的行标号和列标号，利用拉格朗日乘子法和KKT条件求取最优值，即对缺失项求目标函数的导数并令其为零，可优化求解得到其最优的估值；第四步，利用k近邻...

【技术特征摘要】
1.一种结合局部信息的不完整数据相似性刻画方法，其特征在于，包括下列步骤：第一步，对不完整数据集进行数据预处理，对不完整数据的缺失项进行特征平均值初始化；由数据集中包含缺失项的某列特征计算其已知项的平均值，填写缺失项的值，并在算法的初始化阶段由核模糊C均值聚类算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵；第二步，利用核模糊C均值聚类算法(KFCM)对初始化后的数据集合聚类，并利用凸差(DC)规划对KFCM非凸目标函数进行优化；先对聚类中心和数据隶属度的可行域分别凸化处理，将其可行域扩展为相应的凸集；再对KFCM目标函数进行DC分解，将非凸目标函数变为两个凸函数之差的形式；然后利用DCA算法优化上述DC问题，以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数，根据对偶理论定义原DC问题和对偶DC问题的关系，微分并投影到凸化可行域，求得算法的聚类中心和隶属度矩阵；第三步，求得数据聚类中心和隶属度，将数据缺失项视为目标优化变量，记录缺失项的行标号和列标号，利用拉格朗日乘子法和KKT条件求取最优值，即对缺失项求目标函数的导数并令其为零，可优化求解得到其最优的估值；第四步，利用k近邻填补算法(kNNI)计算数据缺失项的估计值，将k近邻算法运用到数据填补中，利用与缺失记录最相似k条记录的加权均值作为填补值；第五步，将第三步与第四步的估值按参数加权，并优化获取最优填补值再次更新缺失项；第六步，判断本次缺失项填补值与上一次缺失项填补值之间的差是否小于给定的阈值，迭代更新第二、三、四、五步直至满足收敛条件；对数据集中所有缺失数据项填补更新完成后，通过比较本次与上一次结果之间的误差判断算法是否收敛；若满足算法收敛条件，即误差小于给定阈值，当前更新结果为算法执行的最终结果；否则，更新缺失数据项为当前求得的最优值，重新进行迭代求解过程。2.根据权利要求1所述的结合局部信息的不完整数据相似性刻画方法，其特征在于，在上述第一步中用缺失特征的已知项平均值来初始化缺失项数据，采用核模糊C均值聚类算法初始化聚类中心和隶属度矩阵，减少了后续算法的迭代过程，加快了算法的收敛速度。3.根据权利要求1所述的结合局部信息的不完整数据相似性刻画方法，其特征在于，在上述第二步中核模糊C均值聚类算法的目标函数为：分别对聚类中心和隶属度的可行域空间进行凸化，扩展得到其相应的凸集合。再对核模糊C均值聚类算法的目标函数进行DC分解：Jm(T，V)＝G(T，V)-H(T，V)其中，函数G和H在凸可行域中均为凸函数。采用DCA算法来优化上述DC问题，将问题转化为凸函数与一阶线性函数之和的形式，近似逼近凸差化的目标函数，分别求聚类中心和隶属度的次微分，并分别投影到各自的凸化可行域空间中，得到本次迭代的聚类中心和隶属度矩阵...

【专利技术属性】
技术研发人员：陈松灿，贺丹，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人