一种数据挖掘系统中数据预处理的方法、系统及装置制造方法及图纸

技术编号:5206010 阅读:226 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种数据挖掘系统中数据预处理的方法、系统及装置,其中,数据预处理对应具有设定执行次序的多个预处理方式,主要技术方案包括:确定数据预处理对应的当前预处理方式;在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。根据该技术方案,减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,尤其涉及一种数据挖掘系统中数据预处理的方 法、系统及装置。
技术介绍
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取 隐合在其中的人们事先不知道但又是潜在有用的信息和知识的过程。数据挖掘流程通常包 括数据加载、数据预处理(ETL)、数据挖掘算法实现、结果展示等主要步骤。其中,ETL(Ex traction-Transformation-Loading,抽取、转换和加载)占数据挖掘流程中60%以上的工作量。ETL是负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临 时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、 数据挖掘的基础。并且,ETL是数据仓库中的非常重要的一环。相对于关系数据库,数据仓库 技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按 照物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关, 同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘 的结果的质量。目前数据挖掘系统通常采用并行ETL工具进行并行数据预处理,需要经过多次数 据处理操作得到数据挖掘算法实现所需要的数据。现有并行数据处理过程通常采用工作流 拖拽的方式进行数据预处理,也就是说数据预处理对应具有设定执行次序的多个预处理方 式,每个预处理方式通过对应的功能组件实现,独立执行每个数据处理功能组件,每个数据 处理功能组件在执行中包括完整的数据分片、数据处理、数据处理结果合并操作。例如,一 个并行ETL流程包括数据缺值处理、数据冗余处理、属性交换以及属性删除四个预处理方 式,其对应的执行过程如图1所示,这4个预处理方式之间对应设定的执行次序,在根据每 个数据预处理方式处理数据时都需要先读取数据,然后进行相应处理,最后写入到硬盘。上述并行ETL处理方案中,完成每一个数据处理流程(即根据设定的数据预处理 方式处理数据),需要先将处理结果合并写入硬盘,进行下一个数据处理流程时再重新分片 数据并读取硬盘。由于一个完整的ETL数据处理流程往往由几十甚至几百个数据处理功能 组件完成数据的预处理,带来大量的I/O读写硬盘的操作,并且在每次读写时都引入了不 同数据存储节点之间的数据传输,导致并行处理数据的效率低,从而影响整个数据挖掘系 统的性能。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据挖掘系统中数据预处理的方法、系统及装 置,采用该技术方案,减少了对硬盘的读写操作以及数据存储节点之间的数据传输,提高了 数据预处理的效率。本专利技术实施例通过如下技术方案实现根据本专利技术实施例的一个方面,提供了一种数据挖掘系统中数据预处理的方法。根据本专利技术实施例提供的数据挖掘系统中数据预处理的方法,所述数据预处理对 应具有设定执行次序的多个预处理方式,包括确定数据预处理对应的当前预处理方式;在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前 预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据所述当前预处理 方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下 一预处理方式进行处理。根据本专利技术实施例的另一个方面,还提供了一种数据挖掘系统中数据预处理的系 统。根据本专利技术实施例提供的数据挖掘系统中数据预处理的系统,所述数据预处理 对应具有设定执行次序的多个预处理方式,所述系统包括控制节点以及多个操作节点;其 中所述控制节点用于,确定数据预处理对应的当前预处理方式,在确定若根据所述 当前预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理 的最后一个预处理方式时,在所述多个操作节点分别根据所述当前预处理方式处理待处理 数据后,控制所述多个操作节点对得到的处理结果根据当前预处理方式的下一预处理方式 进行处理;所述操作节点用于,在根据所述当前预处理方式处理待处理数据后,根据所述控 制节点的控制对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。根据本专利技术实施例的另一个方面,还提供了一种执行数据预处理的控制节点。根据本专利技术实施例提供的执行数据预处理的控制节点,所述数据预处理对应具有 设定执行次序的多个预处理方式,包括预处理方式确定单元,用于确定数据预处理对应的当前预处理方式;判断单元,用于判断若根据所述当前预处理方式处理得到的处理结果是否需要合 并,以及判断所述当前预处理方式是否为数据预处理的最后一个预处理方式;控制单元,用于在所述判断单元确定若根据所述当前预处理方式处理得到的处理 结果无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在各操 作节点根据所述当前预处理方式处理待处理数据后,控制所述各操作节点对得到的处理结 果根据当前预处理方式的下一预处理方式进行处理。通过本专利技术实施例提供的上述至少一个技术方案,首先确定数据预处理对应的当 前预处理方式,在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处 理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理 待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式 进行处理,根据该技术方案,对于处理数据得到的处理结果无需合并并且不为数据预处理 的最后一个预处理方式的预处理方式,在各操作节点采用该预处理方式处理完数据后,控 制各操作节点直接根据该预处理方式的下一预处理方式处理数据,而无需执行处理结果合 并的操作,从而减少了对节点中硬盘的写入以及读取操作,并且减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预 处理的效率,提高了整个数据挖掘系统的性能。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本专利技术而了解。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术实施 例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中图1为本专利技术
技术介绍
提供的ETL处理流程示意图;图2为本专利技术实施例提供的数据挖掘系统中数据预处理的系统示意图一;图3为本专利技术实施例提供的数据挖掘系统中数据预处理的系统示意图二 ;图4为本专利技术实施例提供的控制操作节点执行数据预处理的流程图;图5为本专利技术实施例提供的执行数据预处理的示意图;图6为本专利技术实施例提供的与图4对应的数据预处理流程图;图7为本专利技术实施例提供的控制节点第一示意图;图8为本专利技术实施例提供的控制节点第二示意图。具体实施例方式为了给出提高数据预处理的效率的实现方案,本专利技术实施例提供了一种数据挖 掘系统中数据预处理的方法、系统及装置,以下结合说明书附图对本专利技术的优选实施例进 行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本发 明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。根据本专利技术实施例,提供了一种数据挖掘系统中数据预处理的系统,其中,数据预 处理对应具有设定执行次序的多个预处理方式,如图2所示,该系统包括控制节点201以及多个操作节点202 ;其中控制节点201用于,确定数据预本文档来自技高网
...

【技术保护点】
一种数据挖掘系统中数据预处理的方法,所述数据预处理对应具有设定执行次序的多个预处理方式,其特征在于,包括:确定数据预处理对应的当前预处理方式;在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在控制各操作节点根据所述当前预处理方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。

【技术特征摘要】
1.一种数据挖掘系统中数据预处理的方法,所述数据预处理对应具有设定执行次序的 多个预处理方式,其特征在于,包括确定数据预处理对应的当前预处理方式;在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处 理方式不为数据预处理的最后一个预处理方式时,在控制各操作节点根据所述当前预处理 方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下 一预处理方式进行处理。2.如权利要求1所述的方法,其特征在于,所述确定若根据所述当前预处理方式处理 得到的处理结果无需合并,包括判断在若根据当前预处理方式的下一预处理方式处理数据之前,是否需要对若根据所 述当前预处理方式处理得到的处理结果执行设定操作;若否,则确定若根据所述当前预处理方式处理得到的处理结果无需合并。3.如权利要求1所述的方法,其特征在于,所述确定若根据所述当前预处理方式处理 得到的处理结果无需合并,包括获取预先确定的各预处理方式分别对应的处理结果是否需要合并的信息;根据所述信息确定若根据所述当前预处理方式处理得到的处理结果是否需要合并。4.如权利要求1所述的方法,其特征在于,在确定若根据所述当前预处理方式处理得 到的处理结果需要合并或所述当前预处理方式为数据预处理的最后一个预处理方式时,还 包括在各操作节点根据所述当前预处理方式处理待处理数据后,控制指定的至少一个合并 节点获取所述各操作节点的处理结果并执行合并操作。5.如权利要求1所述的方法,其特征在于,控制各操作节点根据所述当前预处理方式 处理待处理数据具体包括控制各操作节点获取待处理数据;以及控制各操作节点根据所述当前预处理方式,对获取的待处理数据进行处理。6.如权利要求5所述的方法,其特征在于,控制各操作节点获取待处理数据,具体包括控制各操作节点从本地获取待处理数据,其中获取的待处理数据为源数据或根据当前 预处理方式的上一预处理方式处理得到的处理结果;或,控制各操作节点从指定的至少一个合并节点获取待处理数据,其中获取的待处理数据 为源数据或所述指定合并节点执行合并操作得到的数据。7.一种数据挖掘系统中数据预处理的系统,所述数据预处理对应具有设定执行次序的 多个预处理方式,其特征在于,所述系统包括控制节点以及多个操作节点;其中所述控制节点用于,确定数据预处理对应的当前预处理方式,在确定若根据所述当前 预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最 后一个预处理方式时,在所述多个操作节点分别根据所述当前预处理方式处理待处理数据 后,控制所述多个操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行 处理;所述操作节点用于,在根据所述当前预处理方式处理待处理数据后,根据所述控制节点的控制对得到的处...

【专利技术属性】
技术研发人员:高丹徐萌邓超郭磊涛罗治国周文辉孙少陵陶涛何鸿凌来晓阳
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1