多集群系统和控制多集群系统的数据存储的方法技术方案

技术编号：11943403 阅读：108 留言：0更新日期：2015-08-26 14:38

本申请的提供一种多集群系统和控制多集群系统的数据存储的方法，包括：收集主存储集群和次存储集群中存储的数据的元数据；根据主存储集群和次存储集群中存储的数据的元数据确定主存储集群和次存储集群中存储的数据的活跃程度；根据主存储集群和次存储集群中存储的数据的活跃程度识别主存储集群中存储的沉默数据以及次存储集群中存储的活跃数据；将任意次存储集群中存储的活跃数据迁移至任意主存储集群中存储以及将任意主存储集群中存储的沉默数据迁移至任意次存储集群中存储。采用本申请的技术方案，能解决存储集群与计算集群的处理能力存在差异的问题，实现不同存储集群之间的数据直读直写和整体上的资源调度，并能提升存储集群磁盘利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大数据
，尤其涉及一种。
技术介绍
随着云时代的来临，大数据(Big data)也吸引了越来越多的关注，大数据的概念已经日益清晰，但解决大数据的存储问题仍然是摆在每个用户面前的一道难题。目前，已知的主流分布式存储系统在设计上一般都采用主从(master-slave)体系结构，一个分布式存储系统由一个名字节点(Namenode)加上若干个数据节点(Datanode)组成。单集群的规模受限于名字节点的内存和处理能力的上限。名字节点在内存中存储了整个分布式文件系统中的元数据信息，限制了集群中数据块、文件和目录的数目，文件系统中所有元数据信息的读取和操作都必须与名字节点通信才能进行，所以，文件操作的性能受制于单个名字节点的吞吐量，单个名字节点所能存储的对象受限于名字节点内存的容量。目前的设计，单个存储集群能够支持5000个节点，而单个计算集群能够支持50000个节点以上的规模，可见，存储集群与计算集群的处理能力存在比较大的差异。随着数据的爆炸式增长以及业务规模的迅速扩展，存储和计算绑定的单集群模式将达到计算、存储与流量瓶颈。现有的解决方案，一种是采用大集群模式，通过HDFS Federat1n (名字节点水平扩展方案，允许分布式文件系统HDFS创建多个名字空间namespace以提高集群的扩展性和隔离性)方案将文件系统扩展为多个名字节点，能够增加文件系统读写操作的吞吐量，一个集群可以共享及管理所有资源；一种是采用多集群模式，按照业务逻辑拆分成若干个集群，各个集群之间没有影响，容易水平扩展。然而，采用大集群模式，对于多个名字节点需采用均衡机...
<a href="http://www.xjishu.com/zhuanli/62/CN104869140.html" title="多集群系统和控制多集群系统的数据存储的方法原文来自X技术">多集群系统和控制多集群系统的数据存储的方法</a>

【技术保护点】
一种控制多集群系统的数据存储的方法，其特征在于，包括：收集主存储集群和次存储集群中存储的数据的元数据；根据所述主存储集群和次存储集群中存储的数据的元数据确定所述主存储集群和次存储集群中存储的数据的活跃程度；根据所述主存储集群和次存储集群中存储的数据的活跃程度识别所述主存储集群中存储的沉默数据以及所述次存储集群中存储的活跃数据；以及将任意次存储集群中存储的活跃数据迁移至任意主存储集群中存储以及将任意主存储集群中存储的沉默数据迁移至任意次存储集群中存储。

【技术特征摘要】

【专利技术属性】
技术研发人员：乔平，姜炜，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人