基于MPP的并行数据挖掘架构及其方法技术

技术编号：10815052 阅读：145 留言：0更新日期：2014-12-24 19:21

本发明专利技术涉及一种基于MPP的并行数据挖掘架构及其方法，其主要技术特点是：该挖掘架构包括一个挖掘引擎节点和多个分布式的挖掘代理节点，该方法是：挖掘引擎节点将当前数据挖掘任务分配给数据挖掘任务负载较少的挖掘代理节点，将其作为该数据挖掘任务的Master挖掘代理节点；Master挖掘代理节点采用数据分布的负载均衡及就近挖掘策略并向挖掘代理节点分发挖掘任务；每个挖掘代理节点按照分配的子任务执行Slaver算子,每个Slaver算子只进行其分配到的数据块的处理。本发明专利技术采用MPP方法并结合数据挖掘的特点，实现对海量数据的高速有效地处理，解决了传统数据挖掘软件处理数据量小，运行速度慢的问题，大大提高了数据挖掘算法处理海量数据的效率和数据承载能力。

全部详细技术资料下载

【技术实现步骤摘要】
基于MPP的并行数据挖掘系统及其实现方法
本专利技术属于数据挖掘
，尤其是一种基于MPP的并行数据挖掘系统及其实现方法。
技术介绍
随着计算机技术的飞速发展，特别是Internet技术的不断应用，人们利用网络信息技术产生和搜集数据的能力有了很.大幅度的提高，数据呈现了飞快的增长趋势。如何从海量的数据中获取所需要的信息成为了一个迫切需要研究的问题。面对这样的挑战，数据挖掘(DataMining)技术应运而生，使用数据挖掘技术能够从这些海量数据中获取隐含的有用信息。然而，由于数据的爆炸性增长，如何使用数据挖掘技术快速有效地从海量数据中获取隐含有用的信息变得越来越重要。分布式存储系统是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，难以满足大规模存储应用的需要。分布式存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。分布式计算研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分再分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。MPP(MassivelyParallelProcessing,大规模并行)是指由成千上万个处理器组成的计算机系统。这样的系统是由许多松耦合的处理单元组成的，每个单元内的CPU都有自己私有的资源，如内存，硬盘等。如果处理单元之间需要进行的通信比较少，采用MPP并行是一种较好的选择。在数据挖掘算法中有...
<a href="http://www.xjishu.com/zhuanli/55/201410497377.html" title="基于MPP的并行数据挖掘架构及其方法原文来自X技术">基于MPP的并行数据挖掘架构及其方法</a>

【技术保护点】
一种基于MPP的并行数据挖掘架构，其特征在于：包括一个挖掘引擎节点和多个分布式的挖掘代理节点，所述的挖掘引擎节点包括引擎资源监管模块、任务监管模块、消息服务模块、元数据管理模块、代理资源管理模块、任务调度模块、任务负载均衡模块和计算负载均衡模块；所述的挖掘代理节点包括任务解析器、任务执行器、K均值算法Master算子、K均值算法Slaver算子，所述的任务解析器、任务执行器、K均值算法Master算子、K均值算法Slaver算子依次相连接，该任务解析器与挖掘引擎节点相连接，K均值算法Master算子与分布式数据访问引擎相连接，K均值算法Slaver算子与分布式数据存储节点相连接。

【技术特征摘要】
1.一种基于MPP的并行数据挖掘系统，其特征在于：包括一个挖掘引擎节点和多个分布式的挖掘代理节点，所述的挖掘引擎节点包括引擎资源监管模块、任务监管模块、消息服务模块、元数据管理模块、代理资源管理模块、任务调度模块、任务负载均衡模块和计算负载均衡模块；所述的挖掘代理节点包括任务解析器、任务执行器、K均值算法Master算子、K均值算法Slaver算子，所述的任务解析器、任务执行器、K均值算法Master算子、K均值算法Slaver算子依次相连接，该任务解析器与挖掘引擎节点相连接，K均值算法Master算子与分布式数据访问引擎相连接，K均值算法Slaver算子与分布式数据存储节点相连接；所述挖掘引擎节点根据各挖掘代理节点当前的数据挖掘任务负载情况，将当前数据挖掘任务分配给数据挖掘任务负载较少的挖掘代理节点，将其作为该数据挖掘任务的Master挖掘代理节点；Master挖掘代理节点同分布式数据存储系统或MPP数据库的分布式数据访问引擎进行通信获取数据的分布情况，然后结合当前各挖掘代理节点的计算负载和资源情况，按照该挖掘任务的Master算子，将数据挖掘任务拆分成若干个并行的子任务，采用数据分布的负载均衡及就近挖掘策略向挖掘代理节点分发挖掘任务；每个挖掘代理节点按照分配的子任务执行Slaver算子,每个Slaver算子只进行对其分配到的数据块的处理，处理完成之后向Master挖掘代理节点报告状态和结果。2.根据权利要求1所述的基于MPP的并行数据挖掘系统，其特征在于：所述的挖掘引擎节点对挖掘引擎节点以及挖掘代理节点的计算资源进行监管，对消息的发送、接收、解析及分发，对挖掘任务的监管、调度以及负载均衡处理。3.根据权利要求2所述的基于MPP的并行数据挖掘系统，其特征在于：所述挖掘引擎节点将消息分成如下类型：耗时的挖掘任务消息、挖掘引擎和挖掘代理监管消息、客户端查询消息、模型的实时调用消息、内部消息。4.根据权利要求2所述的基于MPP的并行数据挖掘系统，其特征在于：所述的挖掘引擎节点和挖掘代理节点之间是松耦合的关系，并通过消息中间件异步交互；在挖掘引擎节点和挖掘代理节点内部，当传递任务参数及计算指令时使用JMS，当挖掘代理节点之间交换大数据量时使用FTP。5.根据权利要求2所述的基于MPP的并行数据挖掘系统，其特征在于：所述挖掘引擎节点在收到挖掘任务消息时，将其解析并放入到对应类型的任务池中，由任务调度模块按照内置的调度策略以及负载均衡策略，进行资源申请和分配，将分配好的任务再次封装成消息发送到对应挖掘代理节点的消息队列中。6.根据权利要求5所述的基于MPP的并行数据挖掘系统，其特征在于：所述内置的调度策略包括以下六种：按优先级调度、关联调度、...

【专利技术属性】
技术研发人员：卢中亮，黄瑞，李海峰，苏卫卫，刘祺，钱勇，苗润华，李靖，王文青，
申请(专利权)人：天津神舟通用数据技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人