一种分布式数据处理方法及系统技术方案

技术编号：12032389 阅读：81 留言：0更新日期：2015-09-10 19:53

本发明专利技术公开了一种分布式数据处理方法，所述方法包括以下步骤：虚拟机构建步骤，构建多个包含特定分布式系统基础架构软件的虚拟机；分布式系统构建步骤，基于所述虚拟机构建分布式系统；数据处理步骤，利用所述分布式系统处理待处理数据以获取处理结果。本发明专利技术还公开了一种分布式数据处理系统，所述系统包含多个虚拟机，每台所述虚拟机包含用于构造分布式系统的特定分布式系统基础架构软件。本发明专利技术的分布式数据处理办法实行简单，系统架构成本低廉，实际推广难度很低；并且基于本发明专利技术的方法构造的分布式处理系统不仅结构简单，并且可以根据实际需要灵活的增减其架构规模，从而实现针对不同数据量的数据进行针对性处理，大大提高了资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，具体说涉及一种分布式数据处理方法及系统。
技术介绍
随着计算机系统的广泛应用以及计算机功能的完善，越来越多的工作被交予计算机处理。其中就包含一次性交予计算机处理大量数据的情况。以网页(web)日志信息的处理为例。小型网站每天产生的web日志信息很少，在少量web日志信息数据量的情况下，依靠单一的计算机节点，使用Linux工具即可处理每天的web日志信息。然而随着网站规模的成长，数据中心网站的访问量越来越大，产生的web日志信息也越来越多。一般的中型网站(10万的页面浏览量以上)每天会产生IGB以上的web日志文件，大型或超大型的网站，可能每个小时就会产生1GB的数据量的web日志文件。一旦数据量超过一定的大小，传统的依靠单一计算机节点的计算能力就不能满足计算处理需求。现有技术中，通常采用分布式处理的方式来进行消耗大量计算资源的复杂计算。利用多台计算机构成计算机网络，通过网络将数据分布到多个节点上进行计算处理。这种方式将大量的数据分离成一个个小部分分别解决从而大大提高了处理效率，缩短了处理时间。但是，用于处理数据的分布式计算机系统的架构过程复杂且架构成本很高，实用性和推广度都不高。另外，架构好的分布式计算机系统不能方便的增减规模，灵活度不高。因此，针对消耗大量计算资源的数据处理问题，需要一种新的更为灵活实用数据处理方法以实现更为低成本、高效率的数据处理。
技术实现思路
针对消耗大量计算资源的数据处理问题，本专利技术提供了一种分布式数据处理方法，所述方法包括以下步骤:虚拟机构建步骤，构建多个包含特定分布式系统基础架构软件...

【技术保护点】
一种分布式数据处理方法，其特征在于，所述方法包括以下步骤：虚拟机构建步骤，构建多个包含特定分布式系统基础架构软件的虚拟机；分布式系统构建步骤，基于所述虚拟机构建分布式系统；数据处理步骤，利用所述分布式系统处理待处理数据以获取处理结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：李小勇，汪一平，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人