一种数据处理方法及装置制造方法及图纸

技术编号:18138986 阅读:71 留言:0更新日期:2018-06-06 12:10
本发明专利技术公开了一种数据处理方法,包括:获取多个数据样本;所述多个数据样本形成数据集合;利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。本发明专利技术同时还公开了一种数据处理装置。

【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术涉及数据处理领域,尤其涉及一种数据处理方法及装置。
技术介绍
随着互联网和移动互联网的高速发展,数据呈几何量级的快速增长,数据总量大概每六个月翻一番。大量的有效信息隐藏在数据的海洋中,用户需要充分利用数据,对数据进行有效的挖掘和分析,才能够发现其中隐藏的有效信息,从而让数据产生应有的价值。然而,实际获取数据的过程中,不可避免地会有部分数据缺失,每个数据样本都可能存在部分缺失,数据的缺失会给数据挖掘和分析任务带来巨大的挑战。对于缺失的数据,目前数据缺失处理方法包括两大类:一类是剔除缺失值;二类是对缺失值进行插补。然而,这两类处理方式均存在一定问题,具体表现在:提出缺失值的方法是以信息的损失为代价换取剩余数据的完整性,当缺失的数据量比较大时,大部分样本会被剔除,失去统计意义。对于插补的方式,无论如何插补,插补结果与实际情况总会有偏差,这种偏差会在后续处理过程中产生累积,产生更多问题。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例提供一种数据处理方法及装置。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种数据处理方法,包括:获取多个数据样本;所述多个数据样本形成数据集合;利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。上述方案中,确定所述多个数据样本的分类过程中,所述方法还包括:针对所述多个数据样本的每个特征,确定一个弱分类器;相应地,利用确定的弱分类器为数据样本分类的正确与错误进行判断。上述方案中,所述数据集合包含数据样本及类标;所述类标表征对数据样本初始分类的判决结果;确定所述多个数据样本的分类过程中,所述方法还包括:利用数据样本对应的类标,为数据样本确定初始权重。上述方案中,所述利用数据样本对应的标准类别,为数据样本确定初始权重,包括:当类标表征数据样本的初始分类正确时,确定对应数据样本的初始权重为第一值;当类标表征数据样本的初始分类错误时,确定对应数据样本的初始权重为第二值。上述方案中,针对每个弱分类器,从多个分类器中确定分类判断误差最小的分类器作为弱分类器。上述方案中,确定所述多个数据样本的分类过程中,所述方法还包括:确定每个弱分类器在最终分类器中所占的权重;利用每个弱分类器的权重及对应的输出,生成所述最终分类器,以得到数据样本的最终分类判决。本专利技术实施例还提供了一种数据处理装置,包括:获取单元,用于获取多个数据样本;所述多个数据样本形成数据集合;确定单元,用于利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。上述方案中,所述确定单元,用于针对所述多个数据样本的每个特征,确定一个弱分类器;相应地,利用确定的弱分类器为数据样本分类的正确与错误进行判断。上述方案中,所述数据集合包含数据样本及类标;所述类标表征对数据样本初始分类的判决结果;所述确定单元,用于确定所述多个数据样本的分类过程中,利用数据样本对应的类标,为数据样本确定初始权重。上述方案中,所述确定单元,用于针对每个弱分类器,从多个分类器中确定分类判断误差最小的分类器作为弱分类器。上述方案中,所述确定单元,用于确定所述多个数据样本的分类过程中,确定每个弱分类器在最终分类器中所占的权重;利用每个弱分类器的权重及对应的输出,生成所述最终分类器,以得到数据样本的最终分类判决。本专利技术实施例提供的数据处理方法及装置,获取多个数据样本;所述多个数据样本形成数据集合;利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。基于Adaboost算法,确定所述多个数据样本的分类,且在确定过程中分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,有缺失值的数据样本的权重增加,这样,在该过程中不需要对任何缺失数据进行删除和插补,直接通过未缺失数据进行分类的统计分析,并可以对部分缺失的数据的分类进行分析和预测,如此,使用范围更广,使用更方便。附图说明在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。具有不同字母后缀的相似附图标记可表示相似部件的不同示例。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。图1为本专利技术实施例一数据处理的方法流程示意图;图2为本专利技术实施例二数据分类的处理过程示意图;图3为Adaboost算法实现的三个方面示意图;图4为本专利技术实施例三数据处理装置结构示意图。具体实施方式下面结合附图及实施例对本专利技术再作进一步详细的描述。目前,对于缺失的数据,目前数据缺失处理方法包括两大类:一类是剔除缺失值;二类是对缺失值进行插补。其中,剔除缺失值有两种实现方式,第一种方式是剔除有缺失值的样例,另一种方式是剔除有缺失值的特征。对缺失值进行插补可以通过很多方法实现,常用的方法包括:均值插补、相似样本插补、回归预测插补以及多重插补等。这里,均值插补是一种快速有效的缺失值插补方法。变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,就采用众数来补齐该缺失的变量值。相似样本插补是指:从数据集合中找到一个与缺失样本最相似的样本,然后用这个相似样本的值来进行填充。其中,相似性的度量方法有多种,例如相关系数,各种距离等等。回归预测插补是利用无缺失变量对缺失变量建立回归模型,估计缺失值,用回归结果插补缺失值。这种方法综合考虑了多个样本和多个特征的信息,对整个数据集合的信息进行了充分利用,较上述方法有一定优势。多重插补方法是由Rubin等人于1987年建立起来的一种数据扩充和统计分析方法,是对上述简单插补方法的改进。其基本思想是:首先,用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确定性。接着,对多次替换后产生的若干个数据集进行分析。最后,把来自于各个数据集的统计结果进行综合,得到总体参数的估计值。由于多重估算技术并不是用单一的值来替换缺失值,而是试图产生缺失值的一个随机样本,这种方法一定程度上反映出了由于数据缺失而导致的不确定。然而,目前的数据缺失处理方法均存在一定的问题。下面详细说明各方法存在的问题。剔除缺失值方法的问题显而易见的。具体表现在:对于剔除缺失值的方法,剔除有缺失值的样例会造成样本减少,统计产生偏差;而剔除有缺失值的特征则会减少数据集的信息量。无论以哪种方式剔除,都是以信息的损失为代价换取本文档来自技高网...
一种数据处理方法及装置

【技术保护点】
一种数据处理方法,其特征在于,所述方法包括:获取多个数据样本;所述多个数据样本形成数据集合;利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取多个数据样本;所述多个数据样本形成数据集合;利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。2.根据权利要求1所述的方法,其特征在于,确定所述多个数据样本的分类过程中,所述方法还包括:针对所述多个数据样本的每个特征,确定一个弱分类器;相应地,利用确定的弱分类器为数据样本分类的正确与错误进行判断。3.根据权利要求1所述的方法,其特征在于,所述数据集合包含数据样本及类标;所述类标表征对数据样本初始分类的判决结果;确定所述多个数据样本的分类过程中,所述方法还包括:利用数据样本对应的类标,为数据样本确定初始权重。4.根据权利要求3所述的方法,其特征在于,所述利用数据样本对应的标准类别,为数据样本确定初始权重,包括:当类标表征数据样本的初始分类正确时,确定对应数据样本的初始权重为第一值;当类标表征数据样本的初始分类错误时,确定对应数据样本的初始权重为第二值。5.根据权利要求1所述的方法,其特征在于,针对每个弱分类器,从多个分类器中确定分类判断误差最小的分类器作为弱分类器。6.根据权利要求1至5任一项所述的方法,其特征在于,确定所述多个数据样本的分类过程中,所述方法还包括:确定每个弱分类器...

【专利技术属性】
技术研发人员:张志鹏姚振杰
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1