一种分布式系统挖掘数据的清洗方法技术方案

技术编号:15542538 阅读:54 留言:0更新日期:2017-06-05 11:26
本发明专利技术涉及一种分布式系统挖掘数据的清洗方法,根据各个计算节点的运行负载选择其一充当数据清洗节点,将数据挖掘的前期数据清洗准备工作从控制节点中分离出来,减轻控制节点的运行负载,加快系统处理速度,另外由于是根据数据清洗节点的运行负载来选择合适的数据清洗模式,保证数据清洗任务实现的同时不影响数据清洗节点本身其他任务的运行。

Cleaning method for mining data of distributed system

The invention relates to a method of cleaning the data mining of distributed system, according to the running load of the nodes choose one as data cleaning nodes, data mining will be pre data cleaning preparations isolated from the control node, reduce the operating load of the control node, to speed up the processing speed of the system, the other is due to select data cleaning the appropriate mode according to the load node data cleaning operation, and ensure the data cleaning tasks to achieve data cleaning does not affect the operation of other tasks node itself.

【技术实现步骤摘要】
一种分布式系统挖掘数据的清洗方法
本专利技术属于数据清洗领域,尤其涉及分布式系统环境下挖掘数据的清洗方法。
技术介绍
近年来随着网络技术的发展,分布式技术得到了深入的研究和广泛的应用,分布式系统中的各个计算机都具有独立计算能力,具有多种运行模式,其中一个控制节点和多个计算节点是比较常见的运行模式,由控制节点实现任务的调度、分配和资源控制等,计算节点实现任务处理、数据计算等。数据挖掘是计算系统通常可以提供的外部服务,现有技术中对于分布式系统而言,数据挖掘服务通常是由控制节点提供,由于数据挖掘服务前期的数据清洗要耗费比较多的时间,控制节点进行数据清洗工作必然会占用其相当的计算资源,由于分布式系统中的控制节点还要进行任务的调度、分配和资源控制等,因此加重了控制节点的处理负载,对控制节点的硬件配置要求很高,如果控制节点配置达不到运行负载要求,则容易导致控制节点死机、系统瘫痪。基于上述问题,现在亟需一种新的分布式系统挖掘数据的清洗方法,减轻控制节点的运行负载,加快系统处理速度。
技术实现思路
为了解决现有技术中的上述问题,本专利技术提出了一种分布式系统中挖掘数据的清洗方法。本专利技术采用的技术方案如下:一种分布式系统中挖掘数据的清洗方法,该方法包括如下步骤:(1)将分布式系统中的节点按照性能划分为多个计算节点和一个控制节点,所述分布式系统中作为计算机资源的计算节点组成机群、提供计算机资源给控制节点,控制节点中存储有调度线程、负载监控线程、数据清洗线程和数据挖掘线程,其中控制节点负责分布式系统中的任务调度、各个计算节点的负载监控以及对外提供服务,所述服务包括数据挖掘服务;(2)控制节点中的负载监控线程对各个计算节点的运行负载进行实时监控;(3)当控制节点接收到数据挖掘服务请求时,上述负载监控线程对各个计算节点当前负载运行状态的实时监测数据进行分析和比较,选择其中最低运行负载的计算节点作为数据清洗节点,控制节点将其存储的数据清洗线程和所监测的上述数据清洗节点的当前负载运行状态传送给上述数据清洗节点;(4)所述数据清洗节点接收上述数据清洗线程和当前负载运行状态,保存在本地,其中数据清洗线程由抽象组件来实现,包括输入构件、清洗服务组件、输出组件、连接组件和数据容器组件,所述输入组件用于清洗过程中从数据源提取数据,输出组件用于将清理的数据存入数据容器,所述连接组件用于粘合一个组件的输出端口和另一个组件的输入端口,数据容器组件用于存储清洗数据,清洗服务组件用于实现多个数据清洗功能;其中清洗服务组件包括数据标准化模块、错误数据查找模块、重复数据删除模块、数据关联、数据合并、数据分析、数据增强模块,其中数据标准化模块、错误数据查找模块和重复数据删除模块为基本清洗模块集,数据关联、数据合并为提高清洗模块集,数据分析、数据增强为附加清洗模块集;(5)所述数据清洗节点将存储的当前负载运行状态与第一预设负载阈值进行比较,如果当前负载运行状态不低于第一预设负载阈值,则数据清洗节点选择基本清洗模块集、输入组件、连接组件、数据容器组件和输出组件构成新数据清洗线程并运行,实现基本数据清洗任务;如果当前负载运行状态低于第一预设负载阈值,则将当前负载运行状态与第二预设负载阈值进行比较;如果当前负载运行状态不低于第二预设负载阈值,则数据清洗节点选择基本清洗模块集和提高清洗模块集以及输入组件、连接组件、数据容器组件、输出组件构成新数据清洗线程并运行,实现提高数据清洗任务,如果当前负载运行状态低于第二预设负载阈值,则数据清洗节点选择基本清洗模块集、提高清洗模块集和附加清洗模块集以及输入组件、连接组件、数据容器组件、输出组件构成新数据清洗线程并运行,实现附加数据清洗任务。本专利技术的有益效果包括:根据各个计算节点的运行负载选择其一充当数据清洗节点,将数据挖掘的前期准备工作负载(数据清洗)从控制节点中分离出来,减轻控制节点的运行负载,加快系统处理速度,进一步地,本申请是根据数据清洗节点的运行负载来选择合适的数据清洗模式,保证数据清洗任务的同时不影响数据清洗节点本身其他任务的运行。【附图说明】此处所说明的附图是用来提供对本专利技术的进一步理解,构成本申请的一部分,但并不构成对本专利技术的不当限定,在附图中:图1是本专利技术分布式系统的结构图。图2是本专利技术分布式系统中挖掘数据的清洗方法的流程图。【具体实施方式】下面将结合附图以及具体实施例来详细说明本专利技术,其中的示意性实施例以及说明仅用来解释本专利技术,但并不作为对本专利技术的限定。参见附图1,是本专利技术所应用的分布式系统,该系统包括一个控制节点和多个计算节点。参见附图2,一种分布式系统中挖掘数据的清洗方法,该方法包括如下步骤:(1)将分布式系统中的节点按照性能划分为多个计算节点和一个控制节点,所述分布式系统中作为计算机资源的计算节点组成机群、提供计算机资源给控制节点,控制节点中存储有调度线程、负载监控线程、数据清洗线程和数据挖掘线程,其中控制节点负责分布式系统中的任务调度、各个计算节点的负载监控以及对外提供服务,在一个实施方式中,所述服务包括数据挖掘服务,在其他实施方式中,还可以包括其他对外服务;(2)控制节点中的负载监控线程对各个计算节点的运行负载进行实时监控;(3)当控制节点接收到数据挖掘服务请求时,上述负载监控线程对各个计算节点当前负载运行状态的实时监测数据进行分析和比较,选择其中最低运行负载的计算节点作为数据清洗节点,在一个实施方式中,假如有1个控制节点和5个计算节点,各个计算节点当前运行任务所分别占用的系统资源是60%,65%,70%,75%,80%,则选择最低运行负载60%的计算节点作为数据清洗节点;控制节点将其存储的数据清洗线程和所监测的上述数据清洗节点的当前负载运行状态(60%)传送给上述数据清洗节点;(4)所述数据清洗节点接收上述数据清洗线程和当前负载运行状态(60%),保存在本地,在一个实施方式中本申请的数据清洗线程由抽象组件来实现,包括输入构件、清洗服务组件、输出组件、连接组件和数据容器组件,所述输入组件用于清洗过程中从数据源提取数据,输出组件用于将清理的数据存入数据容器,所述连接组件用于粘合一个组件的输出端口和另一个组件的输入端口,数据容器组件用于存储清洗数据,清洗服务组件用于实现多个数据清洗功能;在一个实施方式中,清洗服务组件包括数据标准化模块、错误数据查找模块、重复数据删除模块、数据关联、数据合并、数据分析、数据增强模块,其中数据标准化模块、错误数据查找模块和重复数据删除模块为基本清洗模块集,数据关联、数据合并为提高清洗模块集,数据分析、数据增强为附加清洗模块集;在其他实施方式中,还可以增加和设置其他的清洗服务组件,以及增加不同的清洗模块集。(5)所述数据清洗节点将存储的当前负载运行状态与第一预设负载阈值进行比较,如果当前负载运行状态不低于第一预设负载阈值,在一个实施方式中,假设当前负载运行状态是60%,第一预设负载阈值是55%,60%不低于55%,则数据清洗节点选择基本清洗模块集、输入组件、连接组件、数据容器组件和输出组件构成新数据清洗线程并运行,实现基本数据清洗任务;在其他实施方式中,如果当前负载运行状态低于第一预设负载阈值,假设当前负载运行状态是50%,第一预设负载阈值是55%,50%低于5本文档来自技高网...
一种分布式系统挖掘数据的清洗方法

【技术保护点】
一种分布式系统挖掘数据的清洗方法,其特征在于,该方法包括如下步骤:(1)将分布式系统中的节点按照性能划分为多个计算节点和一个控制节点,所述分布式系统中作为计算机资源的计算节点组成机群、提供计算机资源给控制节点,控制节点中存储有调度线程、负载监控线程、数据清洗线程和数据挖掘线程,其中控制节点负责分布式系统中的任务调度、各个计算节点的负载监控以及对外提供服务,所述服务包括数据挖掘服务;(2)控制节点中的负载监控线程对各个计算节点的运行负载进行实时监控;(3)当控制节点接收到数据挖掘服务请求时,上述负载监控线程对各个计算节点当前负载运行状态的实时监测数据进行分析和比较,选择其中最低运行负载的计算节点作为数据清洗节点,控制节点将其存储的数据清洗线程和所监测的上述数据清洗节点的当前负载运行状态传送给上述数据清洗节点;(4)所述数据清洗节点接收上述数据清洗线程和当前负载运行状态,保存在本地,其中数据清洗线程由抽象组件来实现,包括输入构件、清洗服务组件、输出组件、连接组件和数据容器组件,所述输入组件用于清洗过程中从数据源提取数据,输出组件用于将清理的数据存入数据容器,所述连接组件用于粘合一个组件的输出端口和另一个组件的输入端口,数据容器组件用于存储清洗数据,清洗服务组件用于实现多个数据清洗功能;其中清洗服务组件包括数据标准化模块、错误数据查找模块、重复数据删除模块、数据关联、数据合并、数据分析、数据增强模块,其中数据标准化模块、错误数据查找模块和重复数据删除模块为基本清洗模块集,数据关联、数据合并为提高清洗模块集,数据分析、数据增强为附加清洗模块集;(5)所述数据清洗节点将存储的当前负载运行状态与第一预设负载阈值进行比较,如果当前负载运行状态不低于第一预设负载阈值,则数据清洗节点选择基本清洗模块集、输入组件、连接组件、数据容器组件和输出组件构成新数据清洗线程并运行,实现基本数据清洗任务;如果当前负载运行状态低于第一预设负载阈值,则将当前负载运行状态与第二预设负载阈值进行比较;如果当前负载运行状态不低于第二预设负载阈值,则数据清洗节点选择基本清洗模块集和提高清洗模块集以及输入组件、连接组件、数据容器组件、输出组件构成新数据清洗线程并运行,实现提高数据清洗任务,如果当前负载运行状态低于第二预设负载阈值,则数据清洗节点选择基本清洗模块集、提高清洗模块集和附加清洗模块集以及输入组件、连接组件、数据容器组件、输出组件构成新数据清洗线程并运行,实现附加数据清洗任务。...

【技术特征摘要】
1.一种分布式系统挖掘数据的清洗方法,其特征在于,该方法包括如下步骤:(1)将分布式系统中的节点按照性能划分为多个计算节点和一个控制节点,所述分布式系统中作为计算机资源的计算节点组成机群、提供计算机资源给控制节点,控制节点中存储有调度线程、负载监控线程、数据清洗线程和数据挖掘线程,其中控制节点负责分布式系统中的任务调度、各个计算节点的负载监控以及对外提供服务,所述服务包括数据挖掘服务;(2)控制节点中的负载监控线程对各个计算节点的运行负载进行实时监控;(3)当控制节点接收到数据挖掘服务请求时,上述负载监控线程对各个计算节点当前负载运行状态的实时监测数据进行分析和比较,选择其中最低运行负载的计算节点作为数据清洗节点,控制节点将其存储的数据清洗线程和所监测的上述数据清洗节点的当前负载运行状态传送给上述数据清洗节点;(4)所述数据清洗节点接收上述数据清洗线程和当前负载运行状态,保存在本地,其中数据清洗线程由抽象组件来实现,包括输入构件、清洗服务组件、输出组件、连接组件和数据容器组件,所述输入组件用于清洗过程中从数据源提取数据,输出组件用于将清理的数据存入数据容器,所述连接组件用于粘合一个组件的输出端口和另一个组件的输入端口,数据容器组件用于存储清洗数据,清洗服务组件用于实现多个数据清洗功能;其中清洗服务组件包括数据标准化模块、错误数据查找模块、重复数据删除模块、数据关联、数据合并、数据分析、数据增强模块,其中数据标准化模块、错误数据查找模块和重复数据删除模块为基本清洗模块集,数据关联、数据合并为提高清洗模块集,数据分析、数据增强为附加清洗模块集;(5)所述数据清洗节点将存储的当前...

【专利技术属性】
技术研发人员:安西民林殷朱巧霞
申请(专利权)人:航天星图科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1