数据分类方法、装置及存储介质制造方法及图纸

技术编号:19009579 阅读:27 留言:0更新日期:2018-09-22 09:23
本发明专利技术提供一种数据分类方法、装置及存储介质,以通过集成学习的方式,直接对有缺失值的数据集进行分析,尽可能得到高质量的分析结果。该方法包括:获取不完整数据集中待分类元组的缺失属性集,并根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其中,所述MAT结构的每一节点表示缺失某一属性集合的数据样本集合;将所述目标节点以及所述目标节点以下且属于所述目标节点所在支路的每一节点分别作为一个完整视图,并基于每一所述完整视图分别训练一基本分类器;通过对得到的每一所述基本分类器进行排序组合,得到目标分类器;利用所述目标分类器对所述待分类元组进行数据分类。

Data classification method, device and storage medium

The invention provides a data classification method, a device and a storage medium for directly analyzing a data set with missing values by means of integrated learning, so as to obtain a high quality analysis result as far as possible. The method includes: acquiring a set of missing attributes of a tuple to be classified in an incomplete data set, and determining the target node of the tuple to be classified in the MAT structure according to the set of missing attributes, wherein each node of the MAT structure represents a set of data samples missing a set of attributes, and the target node and the said target node. Each node below the target node and belonging to the branch of the target node is regarded as a complete view respectively, and a basic classifier is trained based on each complete view; the target classifier is obtained by sorting and combining each of the basic classifiers obtained; and the target classifier is used to train the basic classifier. The data are categorized by categorized tuples.

【技术实现步骤摘要】
数据分类方法、装置及存储介质
本专利技术涉及数据处理领域,具体地,涉及一种数据分类方法、装置及存储介质。
技术介绍
互联网技术和相关应用的飞速发展带来了数据的爆炸式增长,数据库规模从KB、MB级飞跃到GB、TB级甚至到EB、ZB级,海量的数据和数据分析有助于我们发现数据中潜在的知识与信息,并为知识的可信度和可用性提供了保障,但数据的爆炸式增长也带来了大量的数据的质量问题,可能存在的劣质数据给数据分析相关工作带来了巨大的挑战,其中带有缺失值的数据,也就是不完整数据,是非常典型的一个问题。有研究表明,超过60%的数据集存在不同程度上的缺失,直接严重影响了数据分析工作,也极大程度降低了分析结果的精确度和可用性。目前对于数据集中的缺失值的解决办法要么是直接忽略存在缺失值的数据元组,要么是对缺失值进行填充。但是,当每个属性缺失值的百分比变化很大时,采用忽略元组的方式将使性能将变得很差,因为被忽略的数据是很重要的,不能使用该元组的剩余属性值。而现有技术中对于缺失值的填充会耗费大量的时间成本和空间成本,并且预测出的缺失值的置信度可能不高,当其成本已经远远超过数据分析的成本,且已经填充好但数据分析的精确度和效率仍旧不高或没有显著性提升时,对于缺失值的填充是得不偿失的。
技术实现思路
为了克服相关技术中存在的问题,本公开提供一种数据分类方法、装置及存储介质,以通过集成学习的方式,直接对有缺失值的数据集进行分析,尽可能得到高质量的分析结果。为了实现上述目的,本专利技术第一方面提供一种数据分类方法,所述方法包括:获取不完整数据集中待分类元组的缺失属性集,并根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其中,所述MAT结构是基于所述不完整数据集预先建立好的,所述MAT结构的每一节点表示缺失某一属性集合的数据样本集合,并且每一子节点缺失的属性集合包括该子节点的父节点缺失的属性集合;将所述目标节点以及所述目标节点以下且属于所述目标节点所在支路的每一节点分别作为一个完整视图,并基于每一所述完整视图分别训练一基本分类器;通过对得到的每一所述基本分类器进行排序组合,得到目标分类器;利用所述目标分类器对所述待分类元组进行数据分类。可选地,构建所述MAT结构的方法包括:将|mset|大小相同的Xmset放在树结构的同一层内,得到初始树结构,其中,Xmset表示一个样本集合,mset表示样本缺失的属性集合,并且mset中属性的顺序是按照数据集中属性列的顺序排好,得到的所述初始树结构中每一层之间存在相互连接的关系;针对所述初始树结构,对于任意的Xmset1和Xmset2,如果则将Xmset2更新为Xmset2∪Xmset1,得到所述MAT结构。可选地,所述通过对得到的每一所述基本分类器进行排序组合,得到目标分类器,包括:确定每一所述完整视图的特征与所述待分类元组的特征的互信息集合;基于所述互信息集合的特征个数和/或相关关系对每一所述完整视图对应的基本分类器进行排序;使用Boosting提升方法,将排序好的所述基本分类器串联起来,得到所述目标分类器。可选地,所述方法还包括:按照如下公式设定每一样本的初始权重:其中,N为每个样本在要训练的所有数据集中出现的次数之和,mi为所述第i个样本在要训练的所有数据集中出现的次数之和,第m个基本分类器训练完毕后,将会更新每个样本的权值分布,供第m+1个基本分类器使用。本专利技术第二方面提供一种数据分类装置,所述装置包括:获取模块,用于获取不完整数据集中待分类元组的缺失属性集;确定模块,用于根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其中,所述MAT结构是基于所述不完整数据集预先建立好的,所述MAT结构的每一节点表示缺失某一属性集合的数据样本集合,并且每一子节点缺失的属性集合包括该子节点的父节点缺失的属性集合;训练模块,用于将所述目标节点以及所述目标节点以下且属于所述目标节点所在支路的每一节点分别作为一个完整视图,并基于每一所述完整视图分别训练一基本分类器;分类器组合模块,用于通过对得到的每一所述基本分类器进行排序组合,得到目标分类器;数据分类模块,用于利用所述目标分类器对所述待分类元组进行数据分类。可选地,还包括MAT结构建立装置,用于将|mset|大小相同的Xmset放在树结构的同一层内,得到初始树结构,其中,Xmset表示一个样本集合,mset表示样本缺失的属性集合,并且mset中属性的顺序是按照数据集中属性列的顺序排好,得到的所述初始树结构中每一层之间存在相互连接的关系;针对所述初始树结构,对于任意的Xmset1和Xmset2,如果则将Xmset2更新为Xmset2∪Xmset1,得到所述MAT结构。可选地,所述分类器组合模块包括:确定子模块,用于确定每一所述完整视图的特征与所述待分类元组的特征的互信息集合;排序子模块,用于基于所述互信息集合的特征个数和/或相关关系对每一所述完整视图对应的基本分类器进行排序;组合子模块,用于使用Boosting提升方法,将排序好的所述基本分类器串联起来,得到所述目标分类器。可选地,所述装置还包括:权重设置模块,用于按照如下公式设定每一样本的初始权重:其中,N为每个样本在要训练的所有数据集中出现的次数之和,mi为所述第i个样本在要训练的所有数据集中出现的次数之和,第m个基本分类器训练完毕后,将会更新每个样本的权值分布,供第m+1个基本分类器使用。本专利技术第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。本专利技术第四方面提供一种数据分类装置,包括:第三方面所述的计算机可读存储介质;以及一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。采用上述技术方案,至少可以达到如下技术效果:与现有技术相比,本专利技术避免了对不完整数据集中缺失值的填充,节省了时间成本和空间成本。同时,针对不完整的待分类元组,利用包括该待分类元组所缺失的属性集合以及包括该属性集合以及其他缺失属性的完整视图训练成基本分类器,使得在可用的完整视图数目很少的情况下,最大限度的发挥不完整数据集的价值,得到质量较高的分类结果。也就是说,本专利技术对于待分类的样本具有较强的包容性,如果该样本中含有缺失值,使用本专利技术中的方案依旧可以进行正常的分析,获得可信度较高的分类结果。本专利技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术,但并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例提供的一种数据分类方法的流程示意图;图2为本专利技术实施例提供的一种初始树结构的示意图;图3为本专利技术实施例提供的一种基于图2所示的初始树结构得到的MAT结构的示意图;图4为本专利技术实施例提供的一种数据分类装置的结构示意图;图5为本专利技术实施例提供的另一种数据分类装置的结构示意图。具体实施方式以下结合附图对本专利技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术,并不用于限制本专利技术。本专利技术实施例提供一种数据分类方法,如图1所示,该方法包括:S101、获取不完整数据集中待分类元组的缺失属性集,并根据所述缺失属性集确定所述待本文档来自技高网...
数据分类方法、装置及存储介质

【技术保护点】
1.一种数据分类方法,其特征在于,所述方法包括:获取不完整数据集中待分类元组的缺失属性集,并根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其中,所述MAT结构是基于所述不完整数据集预先建立好的,所述MAT结构的每一节点表示缺失某一属性集合的数据样本集合,并且每一子节点缺失的属性集合包括该子节点的父节点缺失的属性集合;将所述目标节点以及所述目标节点以下且属于所述目标节点所在支路的每一节点分别作为一个完整视图,并基于每一所述完整视图分别训练一基本分类器;通过对得到的每一所述基本分类器进行排序组合,得到目标分类器;利用所述目标分类器对所述待分类元组进行数据分类。

【技术特征摘要】
1.一种数据分类方法,其特征在于,所述方法包括:获取不完整数据集中待分类元组的缺失属性集,并根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其中,所述MAT结构是基于所述不完整数据集预先建立好的,所述MAT结构的每一节点表示缺失某一属性集合的数据样本集合,并且每一子节点缺失的属性集合包括该子节点的父节点缺失的属性集合;将所述目标节点以及所述目标节点以下且属于所述目标节点所在支路的每一节点分别作为一个完整视图,并基于每一所述完整视图分别训练一基本分类器;通过对得到的每一所述基本分类器进行排序组合,得到目标分类器;利用所述目标分类器对所述待分类元组进行数据分类。2.根据权利要求1所述的方法,其特征在于,构建所述MAT结构的方法包括:将|mset|大小相同的Xmset放在树结构的同一层内,得到初始树结构,其中,Xmset表示一个样本集合,mset表示样本缺失的属性集合,并且mset中属性的顺序是按照数据集中属性列的顺序排好,得到的所述初始树结构中每一层之间存在相互连接的关系;针对所述初始树结构,对于任意的Xmset1和Xmset2,如果则将Xmset2更新为Xmset2∪Xmset1,得到所述MAT结构。3.根据权利要求1或2所述的方法,其特征在于,所述通过对得到的每一所述基本分类器进行排序组合,得到目标分类器,包括:确定每一所述完整视图的特征与所述待分类元组的特征的互信息集合;基于所述互信息集合的特征个数和/或相关关系对每一所述完整视图对应的基本分类器进行排序;使用Boosting提升方法,将排序好的所述基本分类器串联起来,得到所述目标分类器。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:按照如下公式设定每一样本的初始权重:其中,N为每个样本在要训练的所有数据集中出现的次数之和,mi为所述第i个样本在要训练的所有数据集中出现的次数之和,第m个基本分类器训练完毕后,将会更新每个样本的权值分布,供第m+1个基本分类器使用。5.一种数据分类装置,其特征在于,所述装置包括:获取模块,用于获取不完整数据集中待分类元组的缺失属性集;确定模块,用于根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其...

【专利技术属性】
技术研发人员:王宏志孙铭齐志鑫高宏
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1