一种分布式数据处理方法及系统技术方案

技术编号:12032389 阅读:81 留言:0更新日期:2015-09-10 19:53
本发明专利技术公开了一种分布式数据处理方法,所述方法包括以下步骤:虚拟机构建步骤,构建多个包含特定分布式系统基础架构软件的虚拟机;分布式系统构建步骤,基于所述虚拟机构建分布式系统;数据处理步骤,利用所述分布式系统处理待处理数据以获取处理结果。本发明专利技术还公开了一种分布式数据处理系统,所述系统包含多个虚拟机,每台所述虚拟机包含用于构造分布式系统的特定分布式系统基础架构软件。本发明专利技术的分布式数据处理办法实行简单,系统架构成本低廉,实际推广难度很低;并且基于本发明专利技术的方法构造的分布式处理系统不仅结构简单,并且可以根据实际需要灵活的增减其架构规模,从而实现针对不同数据量的数据进行针对性处理,大大提高了资源利用率。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体说涉及一种分布式数据处理方法及系统
技术介绍
随着计算机系统的广泛应用以及计算机功能的完善,越来越多的工作被交予计算机处理。其中就包含一次性交予计算机处理大量数据的情况。以网页(web)日志信息的处理为例。小型网站每天产生的web日志信息很少,在少量web日志信息数据量的情况下,依靠单一的计算机节点,使用Linux工具即可处理每天的web日志信息。然而随着网站规模的成长,数据中心网站的访问量越来越大,产生的web日志信息也越来越多。一般的中型网站(10万的页面浏览量以上)每天会产生IGB以上的web日志文件,大型或超大型的网站,可能每个小时就会产生1GB的数据量的web日志文件。一旦数据量超过一定的大小,传统的依靠单一计算机节点的计算能力就不能满足计算处理需求。现有技术中,通常采用分布式处理的方式来进行消耗大量计算资源的复杂计算。利用多台计算机构成计算机网络,通过网络将数据分布到多个节点上进行计算处理。这种方式将大量的数据分离成一个个小部分分别解决从而大大提高了处理效率,缩短了处理时间。但是,用于处理数据的分布式计算机系统的架构过程复杂且架构成本很高,实用性和推广度都不高。另外,架构好的分布式计算机系统不能方便的增减规模,灵活度不高。因此,针对消耗大量计算资源的数据处理问题,需要一种新的更为灵活实用数据处理方法以实现更为低成本、高效率的数据处理。
技术实现思路
针对消耗大量计算资源的数据处理问题,本专利技术提供了一种分布式数据处理方法,所述方法包括以下步骤:虚拟机构建步骤,构建多个包含特定分布式系统基础架构软件的虚拟机;分布式系统构建步骤,基于所述虚拟机构建分布式系统;数据处理步骤,利用所述分布式系统处理待处理数据以获取处理结果。在一实施例中,所述虚拟机构建步骤包含以下步骤:镜像构建步骤,构建包含所述特定分布式系统基础架构软件的虚拟机镜像;上传步骤,将所述虚拟机镜像上传到云系统中以构建所述虚拟机。在一实施例中,在所述镜像构建步骤中搭建私有云平台以在所述私有云平台上定制所述虚拟机镜像。在一实施例中,在所述分布式系统构建步骤中,对所有所述虚拟机中的所述特定分布式系统基础架构软件进行配置以构建所述分布式系统。在一实施例中,创建配置脚本以通过所述配置脚本对所有所述虚拟机中的所述特定分布式系统基础架构软件进行统一配置。在一实施例中,在所述分布式系统构建步骤中,每个所述虚拟机对应所述分布式系统的一个节点。在一实施例中,根据所述待处理数据的数据量确定所述分布式系统的节点数目从而根据所述节点数目确定在所述虚拟机构建步骤中需要构建的所述虚拟机的数目。在一实施例中,针对构建完成的所述分布式系统,关闭/创建一个或多个所述虚拟机以减少/增加所述分布式系统的节点数目。在一实施例中,所述数据处理步骤包含以下步骤:将所述待处理数据分布式地存放在所述分布式系统的分布式文件系统中;在所述分布式系统的节点间传递用于处理所述待处理数据的特定程序;利用所述特定程序处理所述节点上的所述待处理数据以获取相应的处理结果;将所有节点上获取到的所述处理结果合并到一个节点上。本专利技术还提出了一种分布式数据处理系统,所述系统包含多个虚拟机,每台所述虚拟机包含用于构造分布式系统的特定分布式系统基础架构软件。与现有技术相比,本专利技术具有如下优点:本专利技术的分布式数据处理办法实行简单,系统架构成本低廉,实际推广难度很低;基于本专利技术的方法构造的分布式处理系统不仅结构简单,并且可以根据实际需要灵活的增减其架构规模,从而实现针对不同数据量的数据进行针对性处理,大大提高了资源利用率。本专利技术的其它特征或优点将在随后的说明书中阐述。并且,本专利技术的部分特征或优点将通过说明书而变得显而易见,或者通过实施本专利技术而被了解。本专利技术的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。【附图说明】附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例共同用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是根据本专利技术一实施例执行流程图。【具体实施方式】以下将结合附图及实施例来详细说明本专利技术的实施方式,借此本专利技术的实施人员可以充分理解本专利技术如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依据上述实现过程具体实施本专利技术。需要说明的是,只要不构成冲突,本专利技术中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本专利技术的保护范围之内。随着计算机系统的广泛应用以及计算机功能的完善,越来越多的工作被交予计算机处理。其中就包含一次性交予计算机处理大量数据的情况。以网页(web)日志信息的处理为例。最初的小型网站每天产生的web日志信息很少,在少量web日志信息数据量的情况下,依靠单一的计算机节点,使用Linux工具如:awk,grep, sort,join配合peri,python正则表达式即可处理每天的web日志信息。然而随着网站规模的成长,数据中心网站的访问量越来越大,产生的web日志信息也越来越多。一般的中型网站(10万的页面浏览量以上)每天会产生IGB以上的web日志文件,大型或超大型的网站,可能每个小时就会产生1GB的数据量。一旦数据量超过一定的大小,传统的依靠单一计算机节点的计算能力就不能满足计算处理需求。现有技术中,通常采用分布式处理的方式来进行消耗大量计算资源的复杂计算。这种方式将大量的数据分离成一个个小部分分别解决从而大大提高了处理效率,缩短了处理时间。但是,用于处理数据的分布式计算机系统的架构过程复杂且架构成本很高,实用性和推广度都不高。另外,架构好的计算机系统不能方便的增减规模,灵活度不高。针对现有技术中处理消耗大量计算资源的方法存在的问题,本专利技术提出了一种分布式数据处理方法。接下来基于流程图来详细描述本专利技术的方法的执行过程。附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本专利技术的方法基于分布式处理原理将大数据量的数据分割成小块分布到多个节点分别进行处理。为了实现分布式处理,首先要构建分布式系统。因此本专利技术还提出了一种分布式数据处理系统。传统的模式下是利用多台计算机构成计算机网络进而构建多个节点的分布式系统。但是上述方法不仅构造过程繁琐而且构建成本也很高,为了解决传统分布式系统构建过程中存在的问题,本专利技术的方法基于云系统以及虚拟机构建分布式系统,从而利用云计算实现分布式数据处理。本专利技术的系统包含多个虚拟机,每台虚拟机包含用于构造分布式系统的特定分布式系统基础架构软件。这样多个虚拟机就可以构成一个分布式系统。基于虚拟机易构造、成本低的特点,本专利技术的分布式数据处理办法实行简单,系统架构成本低廉,实际推广难度很低。为了实现云计算,需要云平台的支撑。开源的软件基础结构(Elastic UtilityComputing Architecture for Linking Your Programs To Useful Systems,Eucalyptus)是常用的一种实现云平台的软件基础结构。Eucalyptus云平台是基于基础设施即服本文档来自技高网...

【技术保护点】
一种分布式数据处理方法,其特征在于,所述方法包括以下步骤:虚拟机构建步骤,构建多个包含特定分布式系统基础架构软件的虚拟机;分布式系统构建步骤,基于所述虚拟机构建分布式系统;数据处理步骤,利用所述分布式系统处理待处理数据以获取处理结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:李小勇汪一平
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1