The invention provides a data classification method, a device and a storage medium for directly analyzing a data set with missing values by means of integrated learning, so as to obtain a high quality analysis result as far as possible. The method includes: acquiring a set of missing attributes of a tuple to be classified in an incomplete data set, and determining the target node of the tuple to be classified in the MAT structure according to the set of missing attributes, wherein each node of the MAT structure represents a set of data samples missing a set of attributes, and the target node and the said target node. Each node below the target node and belonging to the branch of the target node is regarded as a complete view respectively, and a basic classifier is trained based on each complete view; the target classifier is obtained by sorting and combining each of the basic classifiers obtained; and the target classifier is used to train the basic classifier. The data are categorized by categorized tuples.
【技术实现步骤摘要】
数据分类方法、装置及存储介质
本专利技术涉及数据处理领域,具体地,涉及一种数据分类方法、装置及存储介质。
技术介绍
互联网技术和相关应用的飞速发展带来了数据的爆炸式增长,数据库规模从KB、MB级飞跃到GB、TB级甚至到EB、ZB级,海量的数据和数据分析有助于我们发现数据中潜在的知识与信息,并为知识的可信度和可用性提供了保障,但数据的爆炸式增长也带来了大量的数据的质量问题,可能存在的劣质数据给数据分析相关工作带来了巨大的挑战,其中带有缺失值的数据,也就是不完整数据,是非常典型的一个问题。有研究表明,超过60%的数据集存在不同程度上的缺失,直接严重影响了数据分析工作,也极大程度降低了分析结果的精确度和可用性。目前对于数据集中的缺失值的解决办法要么是直接忽略存在缺失值的数据元组,要么是对缺失值进行填充。但是,当每个属性缺失值的百分比变化很大时,采用忽略元组的方式将使性能将变得很差,因为被忽略的数据是很重要的,不能使用该元组的剩余属性值。而现有技术中对于缺失值的填充会耗费大量的时间成本和空间成本,并且预测出的缺失值的置信度可能不高,当其成本已经远远超过数据分析的成本,且已经填充好但数据分析的精确度和效率仍旧不高或没有显著性提升时,对于缺失值的填充是得不偿失的。
技术实现思路
为了克服相关技术中存在的问题,本公开提供一种数据分类方法、装置及存储介质,以通过集成学习的方式,直接对有缺失值的数据集进行分析,尽可能得到高质量的分析结果。为了实现上述目的,本专利技术第一方面提供一种数据分类方法,所述方法包括:获取不完整数据集中待分类元组的缺失属性集,并根据所述缺失属性集确定所述 ...
【技术保护点】
1.一种数据分类方法,其特征在于,所述方法包括:获取不完整数据集中待分类元组的缺失属性集,并根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其中,所述MAT结构是基于所述不完整数据集预先建立好的,所述MAT结构的每一节点表示缺失某一属性集合的数据样本集合,并且每一子节点缺失的属性集合包括该子节点的父节点缺失的属性集合;将所述目标节点以及所述目标节点以下且属于所述目标节点所在支路的每一节点分别作为一个完整视图,并基于每一所述完整视图分别训练一基本分类器;通过对得到的每一所述基本分类器进行排序组合,得到目标分类器;利用所述目标分类器对所述待分类元组进行数据分类。
【技术特征摘要】
1.一种数据分类方法,其特征在于,所述方法包括:获取不完整数据集中待分类元组的缺失属性集,并根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其中,所述MAT结构是基于所述不完整数据集预先建立好的,所述MAT结构的每一节点表示缺失某一属性集合的数据样本集合,并且每一子节点缺失的属性集合包括该子节点的父节点缺失的属性集合;将所述目标节点以及所述目标节点以下且属于所述目标节点所在支路的每一节点分别作为一个完整视图,并基于每一所述完整视图分别训练一基本分类器;通过对得到的每一所述基本分类器进行排序组合,得到目标分类器;利用所述目标分类器对所述待分类元组进行数据分类。2.根据权利要求1所述的方法,其特征在于,构建所述MAT结构的方法包括:将|mset|大小相同的Xmset放在树结构的同一层内,得到初始树结构,其中,Xmset表示一个样本集合,mset表示样本缺失的属性集合,并且mset中属性的顺序是按照数据集中属性列的顺序排好,得到的所述初始树结构中每一层之间存在相互连接的关系;针对所述初始树结构,对于任意的Xmset1和Xmset2,如果则将Xmset2更新为Xmset2∪Xmset1,得到所述MAT结构。3.根据权利要求1或2所述的方法,其特征在于,所述通过对得到的每一所述基本分类器进行排序组合,得到目标分类器,包括:确定每一所述完整视图的特征与所述待分类元组的特征的互信息集合;基于所述互信息集合的特征个数和/或相关关系对每一所述完整视图对应的基本分类器进行排序;使用Boosting提升方法,将排序好的所述基本分类器串联起来,得到所述目标分类器。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:按照如下公式设定每一样本的初始权重:其中,N为每个样本在要训练的所有数据集中出现的次数之和,mi为所述第i个样本在要训练的所有数据集中出现的次数之和,第m个基本分类器训练完毕后,将会更新每个样本的权值分布,供第m+1个基本分类器使用。5.一种数据分类装置,其特征在于,所述装置包括:获取模块,用于获取不完整数据集中待分类元组的缺失属性集;确定模块,用于根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其...
【专利技术属性】
技术研发人员:王宏志,孙铭,齐志鑫,高宏,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。