一种环结构的数据放置方法技术

技术编号:14182827 阅读:105 留言:0更新日期:2016-12-14 12:14
本发明专利技术提出了一种针对时间序列数据的环结构的数据放置方法。该方法以时间序列为单位规划数据在集群中的存放位置,将同一时间序列的数据根据某一固定时间窗口分割后依次放置在一组存储节点组成的节点环上。此外,本发明专利技术还提出了两种可供选择的数据备份方法——环内备份和环间备份。实验结果表明,环结构的数据放置方法可以提升时序数据的写入时延,提升基于时间的数据检索效率。

Data placement method for ring structure

The invention provides a data placement method for ring structure of time series data. The method on time sequence of location unit planning data in the cluster, the same time series data according to a fixed time window segmentation after placed node ring in a set of storage nodes on. In addition, the present invention also provides two kinds of data backup methods which are optional backup and inter ring backup. The experimental results show that the data placement method can improve the time delay of data retrieval and improve the efficiency of data retrieval.

【技术实现步骤摘要】

本专利技术属于分布式系统
,具体涉及一种能够提高时间序列读写和计算性能的环结构的分布式数据放置方法。
技术介绍
时间序列是指按时间顺序排列的一组数据,广义地,指一组有序的随机数据。它广泛产生于各类监测、统计场景,例如股票交易数据、气象观测数据、科学实验记录、网站访问日志、电力和化工等行业的实时监测数据等。随着智慧城市、智慧交通、智能家居、智能医疗等技术的推广,各种各样的传感器将会产生大量的时间序列,时间序列的数据量将会在未来几年面临井喷式增长。对如此多的时间序列进行分析和挖掘并使其发挥重要的价值,这将是亟需解决的一个问题。随着数据量和计算复杂度的提升,传统的集中式系统已经不能满足海量时间序列的应用需求。采用分布式系统,利用集群的存储和计算能力来挖掘数据的价值是解决这一问题的重要途径。分布式系统将数据分割后存储在集群中的多个节点,甚至是分布在世界各地的多个数据中心,通过在这些节点或数据中心部署相应的计算任务,可以实现计算任务的并行执行,从而大大提高结果响应速度。在分布式系统中计算任务的调度是基于这样一个假设:移动计算比移动数据更经济,因此计算任务通常被配置在存储相应数据的节点上执行。当执行相对简单的运算时,例如搜索,计算任务可以在各数据节点上独立执行,彼此之间互不相关,因此在集群中放置数据时不需过多考虑计算和应用,仅需关注数据的可用性、负载均衡等性能即可。随着计算任务的增多和计算复杂度的提升,各计算任务之间的数据往往具有一定的依赖性,此时计算任务与其相关数据很难在所有节点上完全匹配,由此导致计算过程中大量的数据传输,进而影响计算效率。近年来,学术界通过优化数据放置策略来提升计算效率的研究显著增多。Hadoop将文件分割为大小相同的块,每个块默认存储三份。它采用机架敏感的副本放置策略,将第一个副本存放在本地节点,第二个副本存放在本地机架上的另外一个节点,而将第三个副本存放到不同机架的节点上。Lin[Lin Gu,Deze Zeng,Song Guo,Yong Xiang,and Jiankun Hu,A General Communication Cost Optimization Framework for Big Data Stream Processing in Geo-distributed Data Centers,IEEE Transactions on Computers.]将一个计算任务流中跨数据中心的数据放置问题转化为虚拟机在数据中心间的位置选择问题,并使用0-1规划对这一问题建模,目的是令计算任务流执行过程中数据中心间的数据传输最少。这一方案可以为单个计算任务流提供近似最优的放置策略,但是由于计算任务与数据放置是紧耦合,因此当计算任务发生变化时需要重新放置数据。Chen[Wuhui Chen,Incheon Paik,and Zhenni Li,Topology-Aware Optimal Data Placement Algorithm for Network Traffic Optimization,IEEE Transactions on Computers,pp.1-14.]的研究发现,当mapper和reducer所需数据在节点上的局部存储难以满足时会导致数据中心间网络传输量的暴增,进而引起计算性能的严重下降。为了从全局角度优化计算性能,提出了一种基于树形网络拓扑的跨数据中心的数据放置策略,并用副本分发树来近似解决这一问题。Ebrahimi[Mahdi Ebrahimi,Aravind Mohan,Andrey Kashlev,and Shiyong Lu,BDAP:A Big Data Placement Strategy for Cloud Based Scientific Workflows,2015IEEE First International Conference on Big Data Computing Service and Applications,pp.105-114.]将同一计算任务输入的数据定义为相关数据,根据数据在所有任务集中的相关次数来评价相关度的大小。采用元启发式优化算法找出令单个虚拟机上数据相关度最大、虚拟机间数据相关度最小的数据放置策略。Zhao[Zhao Er-Dun,Qi Yong-Qiang,Xiang Xing-Xing,and Chen Yi,A Data Placement Strategy Based on Genetic Algorithm for Scientific Workflows,2012Eighth International Conference on Computational Intelligence and Security,pp.146-149.]计算数据相关度的方法与Ebrahimi类似。他采用遗传算法来找到最优数据分布,将相关性强的数据放置在相同的数据中心,并在此基础上尽量提升数据中心间的负载均衡。Liu[Xin Liu,Anwitaman Datta,Towards Intelligent Data Placement for Scientific Workflows in Collaborative Cloud Environment,2011IEEE International Parallel&Distributed Processing Symposium,pp.1052-1061.]根据相关性将数据划分分组,在考虑数据中心的计算能力和存储空间的基础上决定分组的放置位置,令计算能力强的数据中心处理更多的数据集。对于计算过程中产生的中间数据则采用线性判别分析法,根据数据中心的历史性能选择最优放置位置。与Liu相似,Wang[Mingjun Wang,Jinghui Zhang,Fang Dong,and Junzhou Luo,Data Placement and Task Scheduling Optimization for Data Intensive Scientific Workflow in Multiple Data Centers Environment,2014Second International Conference on Advance Cloud and Big Data,pp.77-84.]也对原始数据和中间数据采取不同的放置方法。对原始数据采用基于K-means的数据放置方法,而对于中间数据,则采用数据复制与任务复制相结合的方法来进一步降低数据中心间的网络通信。ARRES[Billel ARRES,Nadia KABACHI,and Omar BOUSSAID,Optimizing OLAP Construction by Improving Data Placement on Multi-Nodes Clusters,2015 23rd Euromicro International Conference on Parallel,Distributed,and Network-Based Processing,pp.520-52本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610561887.html" title="一种环结构的数据放置方法原文来自X技术">环结构的数据放置方法</a>

【技术保护点】
一种环结构的数据放置方法,适用于master‑slave架构的分布式存储系统,其特征在于包括步骤如下:(1)数据分割,将时间序列文件分割为等大小和等时长的数据块;(2)资源分配,master节点为整个时间序列文件分配存储资源信息,资源信息包括存储节点和数据块ID;(3)数据写入,客户端根据master提供的资源信息将时间序列文件的数据块依次写入节点环及备份环。

【技术特征摘要】
1.一种环结构的数据放置方法,适用于master-slave架构的分布式存储系统,其特征在于包括步骤如下:(1)数据分割,将时间序列文件分割为等大小和等时长的数据块;(2)资源分配,master节点为整个时间序列文件分配存储资源信息,资源信息包括存储节点和数据块ID;(3)数据写入,客户端根据master提供的资源信息将时间序列文件的数据块依次写入节点环及备份环。2.根据权利要求1所述的环结构的数据放置方法,其特征在于:所述步骤(1)中对时间序列文件分割方法具体如下:(11)设置时间窗口大小为T;(12)数据清洗,对时间序列文件中各时刻的值的合法性进行验证,若发现数据不合法或数据丢失则根据预先设定的规则进行处理;(13)数据分割,将时间序列文件分割为时间跨度均为T的数据块,最后一个文件块除外。3.根据权利要求1所述的环结构的数据放置方法,其特征在于:所述步骤(2)中分配存储资源信息方法包括:(21)master为时间序列文件提供一个节点环存储第一个备份;(22)master为时间序列文件提供N-1个备份环存储另外N-1个备份;(23)master批量产生数据块ID。4.根据权利要求1所述的环结构的数据放置方法,其特征在于:所述步骤(3)中写入节点环及备份环方法具体如下:(31)客户端向master发送数据写入请求;(32)master将N个节点环信息和K个...

【专利技术属性】
技术研发人员:宋俊平柳立辉王海波吕品邓勇
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1