一种数据分布式存储方法和系统技术方案

技术编号:11203864 阅读:119 留言:0更新日期:2015-03-26 11:55
本发明专利技术提供了一种数据分布式存储方法和系统,其中,所述方法包括:将数据经过小波变换后分解成低频分量和高频分量;每次分解后,对分解出的低频分量和高频分量进行备份,对分解出的低频分量、高频分量和各自的备份数据进行分布式存储;从存储的数据中挑选出低频分量和与之对应的高频分量进行数据处理。本发明专利技术避免了人为确定原始数据分割大小。

【技术实现步骤摘要】

本专利技术涉及大数据存储领域,尤其涉及一种数据分布式存储方法和系统
技术介绍
随着大数据技术的发展,尤其是Hadoop等技术的流行,对数据存储和处理提出了更高的要求。现有的数据分布式存储方法,先通过物理分块的方式将原始数据按照预设的固定大小(比如64M)分割成多个数据块,如图1-a所示;然后将每个原数据块进行多备份(比如每个数据块备份3份),如图1-b所示;最后将原数据块和备份数据分别存储,并且每个备份数据存储在不同的存储节点上。现有的数据分布式存储方法在分割原始数据时,往往由技术人员设置每个分割数据块的大小,随着数据存储规模的增大,不仅费时、效率低,而且也增加了人工操作失误的概率,并且上述分割数据块的大小一经确定后,在数据分布式存储过程中固定不变。此外,随着数据存储规模的增大,用于存储备份数据的存储节点数目也会非常巨大,存储空间占用率高。将过上述方法对数据进行存储后,,现有技术由一个数据节点(名称节点,namenode)对存储节点存储的原数据块和备份数本文档来自技高网...

【技术保护点】
一种数据分布式存储方法,其特征在于,所述方法包括:将数据经过小波变换后分解成低频分量和高频分量;每次分解后,对分解出的低频分量和高频分量进行备份,对分解出的低频分量、高频分量和各自的备份数据进行分布式存储;从存储的数据中挑选出低频分量和与之对应的高频分量进行数据处理。

【技术特征摘要】
1.一种数据分布式存储方法,其特征在于,所述方法包括:
将数据经过小波变换后分解成低频分量和高频分量;
每次分解后,对分解出的低频分量和高频分量进行备份,对分解出的低
频分量、高频分量和各自的备份数据进行分布式存储;
从存储的数据中挑选出低频分量和与之对应的高频分量进行数据处理。
2.如权利要求1所述的方法,其特征在于,所述将数据经过小波变换
后分解成低频分量和高频分量,包括:
确定分解层数;
将数据进行小波变换分解成低频分量和高频分量后,判断是否达到所述
分解层数,如果没有达到所述分解层数,继续将所述低频分量分解成低频分
量和高频分量,直至达到所述分解层数。
3.如权利要求2所述的方法,其特征在于,所述每次分解后,对分解
出的低频分量和高频分量进行备份,对分解出的低频分量、高频分量和各自
的备份数据进行分布式存储,包括:
每次分解后,将分解出的低频分量存储在主节点上,对分解出的低频分
量进行m1次备份,将备份的低频分量分别存储在m1个主备份节点上;将分
解出的高频分量存储在付节点上,对分解出的高频分量进行m2次备份,将
备份的高频分量存储在m2个付备份节点上;m1大于m2,m1和m2均为正
整数。
4.如权利要求3所述的方法,其特征在于,所述将备份的低频分量分
别存储在m1个主备份节点上,包括:
如果低频分量位于第n层,则将该低频分量的其中一个备份数据存储在
存储第n-1层低频分量的备份数据的一个主备份节点上,n大于或等于2。
5.如权利要求3或4所述的方法,其特征在于,所述从存储的数据中挑
选出低频分量和与之对应的高频分量进行数据处理,包括:
获取存储低频分量和高频分量的节点地址;
向存储低频分量的节点请求低频分量,向存储高频分量的节点请求该低
频分量对应的高频分量;
获得低频分量和高频分量后,进行数据处理。
6.如权利要求5所述的方法,其特征在于,所述向存储低频分量的节
点请求低频分量,向存储高频分量的节点请求该低频分量对应的高频分量,
包括:
向主节点请求低频分量;
如果没有从主节点获取到低频分量,依次则向与该主节点对应的主备份
节点请求低频分量,直至获取到低频分量;
向与所述主节点处于相同层的付节点获取高频分量,如果没有从付节点
获取到高频分量,依次向与该付节点对应的备份节点请求高频分量,直至获
取到高频分量。。
7.如权利要求2所述的方法,其特征在于,所述确定分解层数,包
括:
设置初始分解层数N,N为大于或等于1的整数;
如果在对分解出的低频分量、高频分量和各自的备份数据进行分布式存
储的过程中,监测到剩余存储空间达到预设门限,或者,在从存储的数据中
挑选出低频分量和与之对应的高频分量进行数据处理的过程中,监测到数据
处理进度迟缓,则减小分解层数;如果监测到所述剩余存储空间未达到预设
门限并且所述数据处理进度不迟缓,则增加分解层数。
8.一种数据分布式存储系统,其特征在于,所述系统包括:数据分解
模块、数据存储模块以及数据处理模块,其中,
数据分解模块,用于将数据经过小波变换后分解成低频分量和高频分
量;
数据存储模块,...

【专利技术属性】
技术研发人员:李铭轩
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1