The invention is mainly for the nearest neighbor method to fill the shortcomings, is non fixed k value of the nearest neighbor filling method, first of all the different types of attribute distance formula of reasonable definition, and then use the sparse encoding way for each missing instance selection of appropriate K value and the attribute of the missing case finally, through the selection of K value for example lack of recent k a lack of examples with missing data. This method can solve the case of missing data filling problem, and also increase the rationality of missing value filling and improve the filling quality without increasing the filling complexity. The invention is easy to implement, and only a few simple mathematical models are involved in the preparation of the code.
【技术实现步骤摘要】
本专利技术涉及计算机科学与
和信息
,特别是一种使用非固定k值的最近邻方法填充缺失数据的方法。
技术介绍
最近邻算法(kNN)的原理可以描述如下:两个具有最近距离的事例的关系是最紧密的。因此,如果一个事例有缺失(不论缺失在条件属性还是决策属性),都可以计算它跟数据集中其他没有缺失事例的距离,然后找到跟它距离最近的事例,最后,缺失数据的值就用它最近距离的事例该属性上的值(离散属性)或者平均值(连续属性)来代替。由于最近邻方法是基于实例学习的懒惰学习方法(Lazy Learning),因为它实际并没有根据所给训练样本构造一个分类器,而是将所有训练样本首先存储起来,当要进行分类时,就临时进行计算处理。当然,如果用户不能指定k值时,需要事先从训练样本学习k值。与积极学习(Active Learning)方法,如决策树归纳方法和神经网络方法相比,后者在进行分类前就已构造好一个分类模型;因此前者,因为是懒惰学习方法,在训练样本数目迅速增加时,会导致最近邻算法的计算量迅速增加。由于有效的索引方法支持,这个问题得到了解决。于是,最近邻算法得到了广泛的 ...
【技术保护点】
非固定k值的最近邻填充方法,其特征在于:包括下述步骤:(1)把属性分成五类:连续型,对称二进制型,非对称二进制型,无序离散型和有序离散型;并定义不同类属性实例的距离计算式;(2)对每个缺失实例选择最近的k个训练实例,同时选取最符合该缺失实例的属性;(3)计算缺失实例跟所有训练实例的距离,选取最近的k个无缺失实例,然后使用这k个无缺失实例对缺失实例进行缺失值填充。
【技术特征摘要】
1.非固定k值的最近邻填充方法,其特征在于:包括下述步骤: (1)把属性分成五类:连续型,对称二进制型,非对称二进制型,无序离散型和有序离散型; 并定义不同类属性实例的距离计算式; (2)对每个缺失实例选择最近的k个训练实例,同时选取最符合该缺失实例的属性; (3)计算缺失实例跟所有训练实例的距离,选取最近的k个无缺失实例,然...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。