基于层次存储介质的数据调度方法技术

技术编号:8716996 阅读:415 留言:0更新日期:2013-05-17 19:21
本发明专利技术涉及计算机领域的存储技术,提供了一种基于层次存储介质的数据调度方法,该方法包括如下步骤:存储自动分级;定向存取;监控数据访问操作;数据估值;数据迁移。本发明专利技术使集群能够使用层次存储介质进行合理的数据调度,访问性能高,成本低。

【技术实现步骤摘要】

本专利技术涉及计算机领域的存储技术,特别是涉及一种。
技术介绍
随着互联网的普及,数据量呈爆炸性增长。这些数据的存储就成了很多企业需要考虑的重点问题。目前用于存储数据的设备,常见的有硬盘、光盘、磁带、闪存卡等。不同的设备,存储数据的方式不同,访问性能有差异,价格也有区别。通常情况下,访问性能越好,单位容量的价格就越高。很多企业都希望能够用最小的成本达到最佳的性能,达到性能与成本最佳的权衡,这就需要将多种不同特性的存储介质组合多个层次统一使用,这种存储介质被称为层次存储介质。层次存储介质是指用于存储的介质分为多个不同的层次,一般分为至少两层。不同的存储层次,其访问性能、容量、成本等都有着较大的区别。层次越高,访问性能越好,单位存储容量的价格越高。通常情况下,数据的访问主要在层次高的介质上进行,存储主要在层次低的介质上进行。工业研究表明,大约有80 %的数据处于不活跃状态,而只有20 %的数据处于活跃状态,这就意味着只需将这20%的数据存放于层次高的存储介质上,就能满足访问性能的需求;把剩余80%的数据存放于层次较低的存储介质上,就能满足存储成本的限制。这其实是数据与存储介质的匹配问题,分两步进行:一是如何找出活跃数据,即“热”数据;二是如何能保持“热”数据一直存储于层次较高的存储上。找出“热”数据通常有很多方法,有的是依照生命周期,即最新产生的数据为“热”数据,有的是统计数据的访问频率,频率越高,数据越“热”;找到“热”数据后,就要看其与存储位置是否匹配,如果不匹配,即“热”数据存于较低层次的存储上,而“冷”数据存于较高层次的存储上,就需要对数据的位置进行调整,这就是数据迁移。在使用层次存储介质的环境中,数据的调度与数据迁移策略有关。数据的迁移策略其实就是跟数据迁移有关的各种问题。例如,迁移对象的选择,迁移的方向,迁移时机的选择,迁移过程的控制等。(I)迁移对象的选择:通常有两种方法,一种是人为制定规则,如规定某种特定类型的文件在特定的时间从某一级存储迁移到另一级存储上,这种方法多与应用环境相关。另一种方法,就是搜集数据的访问特性,根据数据的访问特性,建模分析,分析的结果是具体的数值,值越大,表明其之后的访问频率可能越高;随后再将数据与其对应的值结合起来,结合相关规则进行筛选,找出需要迁移的对象即可。(2)迁移的方向:指的是数据迁移过程中的数据流向问题。数据流向,有的是单向的,如存储区域网络(Storage Area Network, SAN)中用到的分级存储,使用了在线存储(高端磁盘阵列)+近线存储(低端磁盘阵列)+离线存储(磁带库、光盘库),数据迁移是单向的,即只能从高层的存储移到低级的存储,依据的是信息生命周期的原理;有的是双向的,在由高性能磁盘阵列和低性能磁盘阵列组成的层次存储介质环境中,数据迁移的流向是双向的,存在数据的回迁问题,即数据要先从二级存储迁移到一级存储中,然后再传输给客户端,这类读取过程因为牵涉到两次读操作一次写操作,因此对性能损耗比较大,故从高层往低层的迁移,会非常谨慎。(3)迁移时机的选择:数据迁移,是个耗时耗资源的过程,如果迁移时机选的不好,系统的资源就得不到合理地利用。如在系统很繁忙的时候,发生大规模迁移,可能会导致处理用户访问请求的时间变长,影响服务质量;若迁移次数过多,会导致系统在很大的一部分资源与时间都用于内耗,其对外服务的质量也得不到有效提高;而如果迁移的次数太少或几乎不迁移,又会使得优质的资源得不到充分的利用,也不利于系统的合理使用。目前选择迁移时机的方法有两种,一种是一级存储空间的使用率;一种是固定周期。第一种方法,通过监视一级存储空间的使用率,保证一级存储空间的负载处于一个合理的范围内,使得数据访问能够有效进行;第二种方法,是每隔一段时间就对系统中的数据进行迁移,调整数据位置。(4)迁移过程的控制:主要包括迁移速率的控制和迁移过程的访问控制,要求迁移过程不能过分影响整个系统的访问性能。迁移速率的控制,主要分为两大类,一种是迁移进程优先,即不惜代价完成迁移;一种是保证服务质量的方法,即迁移的过程需要保证服务质量,需要监测系统的负载与带宽等因素。迁移过程的访问控制,指的是对于正在迁移的数据进行访问时的处理方法,多用文件锁的方法。现有的分级存储技术有如下的不足之处:(I)选择迁移对象:使用特定规则的方法,简单有效,但是只能适用于特定的应用场景,一般需要某领域的专家来制定规则;使用搜集数据访问信息并建模的方法,接近于底层,偏重于模型分析,好的模型很重要,应用的范围很广泛。建模时,要考虑到系统中数据传输的基本单位,现在的很多模型中有的是基于文件的,有的是基于对象的,也有的是基于块的。但是对于有着广泛应用的hadoop分布式文件系统(HDFS,Hadoop Distributed File System)而言,它的数据访问的基本单位是文件,但数据传输时的基本单位却是固定大小的数据块,没有适合的模型可供使用。(2)迁移的方向:单向的数据迁移,仅适合于“在线存储+近线存储+离线存储”三级存储模型,对于hadoop集群中的数据节点来说,每个数据节点都能提供在线访问,这种模型显然不适合;双向的数据迁移,在访问低端磁盘阵列时,存在数据的回迁问题,即数据如果不在高端磁盘阵列中时,会先迁移再读取,耗时太多。(3)迁移时机的选择:监视一级存储空间使用率的方法,确实能够使得一级存储空间得到充分的利用,但是在系统中不再有数据写入而只有频繁的数据读取时,一级存储空间不会出现容量不足的情况,就不会触发迁移,数据的位置就得不到动态调整。而采用固定周期的方法,能够定期的调整数据的位置,但是周期的设置需要针对特定的应用场景,通用性不强,而且可能会出现一级存储空间过载的情形。(4)迁移过程的控制:迁移速率控制上,使用迁移过程优先的方法,难以保证系统的服务质量。迁移时的访问控制问题,与系统的访问控制有关,但是使用文件锁的方法很麻烦。而且,针对有着广泛应用的集群来讲,还没有在其中实现分级存储技术,无法合理使用层次存储介质。因此,提供一种使集群能够使用层次存储介质进行合理的数据调度的方法,是目前亟待解决的问题。
技术实现思路
本专利技术针对现有技术的上述缺陷,提供一种,使集群能够使用层次存储介质进行合理的数据调度,访问性能高,成本低。本专利技术采用如下技术方案:一种,所述方法包括如下步骤:存储自动分级:集群启动,根据主机名将各个节点划分为不同的存储层次;定向存取:选择距离近、存储层次高的空闲节点存储和读取文件;监控数据访问操作:记录文件访问信息,并判断迁移时机是否到来,若迁移时机到来,则执行下述操作;数据估值:根据访问记录,使用信息估值模型对数据进行估值;数据迁移:根据所述数据的估值结果,判断数据的位置是否满足数据越热存储层次越高的特点,若不满足,则进行数据迁移,使得数据的位置满足数据越热存储层次越高的特点。优选地,所述方法还包括:自适应调整:数据迁移完成后,根据迁移结果更新相关信息,重新启动监控。优选地,在存储自动分级时,所述存储层次至少包括2级,存储层次的划分标准为:存储层次越高,访问性能越好,处理用户请求的响应时间越短。优选地,所述信息估值模型中所用到的模型的建立方法为:利用搜集到的文件访问记录进行建模本文档来自技高网
...

【技术保护点】
一种基于层次存储介质的数据调度方法,其特征在于,所述方法包括如下步骤:存储自动分级:集群启动,根据主机名将各个节点划分为不同的存储层次;定向存取:选择距离近、存储层次高的空闲节点存储和读取文件;监控数据访问操作:记录文件访问信息,并判断迁移时机是否到来,若迁移时机到来,则执行下述操作;数据估值:根据访问记录,使用信息估值模型对数据进行估值;数据迁移:根据所述数据的估值结果,判断数据的位置是否满足数据越热存储层次越高的特点,若不满足,则进行数据迁移,使得数据的位置满足数据越热存储层次越高的特点。

【技术特征摘要】

【专利技术属性】
技术研发人员:张森林冯圣中
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1