【技术实现步骤摘要】
本专利技术涉及数据挖掘
,尤其涉及一种数据挖掘系统中数据预处理的方 法、系统及装置。
技术介绍
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取 隐合在其中的人们事先不知道但又是潜在有用的信息和知识的过程。数据挖掘流程通常包 括数据加载、数据预处理(ETL)、数据挖掘算法实现、结果展示等主要步骤。其中,ETL(Ex traction-Transformation-Loading,抽取、转换和加载)占数据挖掘流程中60%以上的工作量。ETL是负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临 时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、 数据挖掘的基础。并且,ETL是数据仓库中的非常重要的一环。相对于关系数据库,数据仓库 技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按 照物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关, 同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘 的结果的质量。目前数据挖掘系统通常采用并行ETL工具进行并行数据预处理,需要经过多次数 据处理操作得到数据挖掘算法实现所需要的数据。现有并行数据处理过程通常采用工作流 拖拽的方式进行数据预处理,也就是说数据预处理对应具有设定执行次序的多个预处理方 式,每个预处理方式通过对应的功能组件实现,独立执行每个数据处理功能组件,每个数据 处理功能组件在执行中包括完整的数据分片、数据处理、数据处理结果合并操作。例如,一 个并行ET ...
【技术保护点】
一种数据挖掘系统中数据预处理的方法,所述数据预处理对应具有设定执行次序的多个预处理方式,其特征在于,包括:确定数据预处理对应的当前预处理方式;在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在控制各操作节点根据所述当前预处理方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。
【技术特征摘要】
1.一种数据挖掘系统中数据预处理的方法,所述数据预处理对应具有设定执行次序的 多个预处理方式,其特征在于,包括确定数据预处理对应的当前预处理方式;在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处 理方式不为数据预处理的最后一个预处理方式时,在控制各操作节点根据所述当前预处理 方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下 一预处理方式进行处理。2.如权利要求1所述的方法,其特征在于,所述确定若根据所述当前预处理方式处理 得到的处理结果无需合并,包括判断在若根据当前预处理方式的下一预处理方式处理数据之前,是否需要对若根据所 述当前预处理方式处理得到的处理结果执行设定操作;若否,则确定若根据所述当前预处理方式处理得到的处理结果无需合并。3.如权利要求1所述的方法,其特征在于,所述确定若根据所述当前预处理方式处理 得到的处理结果无需合并,包括获取预先确定的各预处理方式分别对应的处理结果是否需要合并的信息;根据所述信息确定若根据所述当前预处理方式处理得到的处理结果是否需要合并。4.如权利要求1所述的方法,其特征在于,在确定若根据所述当前预处理方式处理得 到的处理结果需要合并或所述当前预处理方式为数据预处理的最后一个预处理方式时,还 包括在各操作节点根据所述当前预处理方式处理待处理数据后,控制指定的至少一个合并 节点获取所述各操作节点的处理结果并执行合并操作。5.如权利要求1所述的方法,其特征在于,控制各操作节点根据所述当前预处理方式 处理待处理数据具体包括控制各操作节点获取待处理数据;以及控制各操作节点根据所述当前预处理方式,对获取的待处理数据进行处理。6.如权利要求5所述的方法,其特征在于,控制各操作节点获取待处理数据,具体包括控制各操作节点从本地获取待处理数据,其中获取的待处理数据为源数据或根据当前 预处理方式的上一预处理方式处理得到的处理结果;或,控制各操作节点从指定的至少一个合并节点获取待处理数据,其中获取的待处理数据 为源数据或所述指定合并节点执行合并操作得到的数据。7.一种数据挖掘系统中数据预处理的系统,所述数据预处理对应具有设定执行次序的 多个预处理方式,其特征在于,所述系统包括控制节点以及多个操作节点;其中所述控制节点用于,确定数据预处理对应的当前预处理方式,在确定若根据所述当前 预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最 后一个预处理方式时,在所述多个操作节点分别根据所述当前预处理方式处理待处理数据 后,控制所述多个操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行 处理;所述操作节点用于,在根据所述当前预处理方式处理待处理数据后,根据所述控制节点的控制对得到的处...
【专利技术属性】
技术研发人员:高丹,徐萌,邓超,郭磊涛,罗治国,周文辉,孙少陵,陶涛,何鸿凌,来晓阳,
申请(专利权)人:中国移动通信集团公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。