一种基于一致性哈希的分层混合存储系统及方法技术方案

技术编号:17561373 阅读:36 留言:0更新日期:2018-03-28 11:59
本发明专利技术公开了一种基于一致性哈希的分层混合存储系统及方法,属于计算机存储领域,可以最大化利用各种存储介质特性,合理采用存储策略,从而提高系统性能。本发明专利技术内容包括:根据存储介质、存储策略的差异设计分层一致性哈希环;在分层一致性哈希环中存储对象通过访问频率、容量等指标进行分层存储;引入监控模块,确定不同时间段采集数据频率及其迁移阈值;引入调度模块,针对数据随时间冷热变化,进行合理的升降级数据迁移调度;采用森林数据结构管理SSD集群数据信息。本发明专利技术针对负载特性进行分层存储,根据存储对象特点提供不同存储介质及存储策略,增强系统灵活性、提高系统读写性能,并保证其稳定性。

A hierarchical hybrid storage system and method based on consistency hash

The invention discloses a hierarchical hybrid storage system and method based on consistent hashing. It belongs to the field of computer storage. It can maximize the characteristics of various storage media, and adopt storage strategy reasonably, so as to improve system performance. The present invention includes: according to the difference of storage media, storage strategy of hierarchical design consistent hashing ring; consistent hashing ring in hierarchical storage object hierarchical storage through the access frequency and capacity index; introducing the monitoring module, determine the different time frequency data acquisition and transfer threshold; introduce the scheduling module for data change the time of hot and cold, lifting a reasonable level data migration scheduling; the forest data structure of SSD cluster data information management. The invention provides hierarchical storage for load characteristics, and provides different storage media and storage strategies according to the characteristics of storage objects, enhancing system flexibility, improving system read and write performance, and ensuring its stability.

【技术实现步骤摘要】
一种基于一致性哈希的分层混合存储系统及方法
本专利技术属于混合存储
,更具体地,涉及一种基于一致性哈希的分层混合存储系统及方法。
技术介绍
存储系统设计一直趋向于追求高性能、大容量、低成本的特性。传统磁盘(HDD)容量大、价格低,但是机械特性导致其耗能高、随机读写性能较差。固态硬盘(SSD)采用半导体技术以闪存(flash)为存储介质,相对于HDD具有随机读写速度快、功耗低、抗震性能好等优点。由于向SSD写数据前需进行擦除操作,因此对其寿命造成影响,此外SSD容量较小且价格昂贵。显然存储系统不适合用SSD作为其唯一存储器件,更倾向于兼容多种存储介质。现代存储系统利用高性能存储介质作为低性能存储介质读写缓存,如SSD用来快速读写,HDD用作永久存储,缓解内存到磁盘读写速度不一致问题,但是SSD等高性能存储介质仅仅发挥缓存作用,没有利用到其硬盘的性质。为进一步发挥SSD等高性能存储介质存储的性能,有些存储系统在高性能存储介质存放小容量的和经常被访问到的数据,而低性能存储介质存放大的和冷的数据。此外针对不同特性数据选择不同冗余存储策略。副本策略具有高可靠性,读性能优化的特点,但是成本开销大;纠删码存储策略用读写时间换取高可靠性及低成本开销。因此许多存储系统会将对象以两种方式存储,即一种采用副本,一种采用纠删码。承担绝大部分读请求的主存储节点存储对象的完整副本,而纠删码节点保证了在主存储节点故障后依然可以对外提供服务。这种方式具有高可靠性,高读写性能,但浪费一定的存储开销,且副本节点承担大部分请求,易造成拥塞。存储系统中一个关键性的问题是管理逻辑地址到物理地址的映射(文件名到具体存放的磁盘位置),许多存储系统使用一致性哈希算法解决这一问题。一致性哈希算法策略具有较好的负载平衡、最大程度避免存储介质变动引起的数据迁移、大大减小数据查询的时间开销等优越性。但是一致性哈希算法建哈希环过程中,仅仅只考虑到环上各存储节点存储容量的差异,这使得当存储对象同时存入性能相差较大的不同节点时,其整体性能总取决于性能最低的节点,没有充分利用各存储介质的特性。其次,研究表明存储系统中80%的请求访问了20%的数据,Spc协会发布的财务访问数据表明80%的访问集中于22%存储文件,大部分的请求集中于对小文件、热数据的访问,而针对大数据、冷数据的请求较少。存储系统中对冷热数据、大小文件不加以区别对待,可能出现冷数据、大文件分配存储于高性能设备,但是大部分时间不被访问;而热数据、小文件可能分配存储于低性能设备,而被时常访问。以上情况不仅仅降低了存储系统性能,同时还大大降低了系统利用率。现代存储系统没有综合考虑存储介质、数据大小、数据冷热、客户访问特性以及冗余存储策略的选择,忽略了客户访问偶然性特点,且数据迁移频率高,影响系统效率,不具有通用性。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于一致性哈希的分层混合存储系统及方法,由此解决现代存储系统没有综合考虑存储介质、数据大小、数据冷热、客户访问特性以及冗余存储策略的选择,忽略了客户访问偶然性特点而导致的数据迁移频率高,影响系统效率以及不具有通用性的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种基于一致性哈希的分层混合存储系统,包括:分层一致性哈希环、监控模块以及调度模块;所述分层一致性哈希环包括固态硬盘集群哈希环和传统磁盘集群哈希环,其中,所述固态硬盘集群哈希环用于将热数据以副本存储策略存储至固态硬盘SSD存储集群,所述传统磁盘集群哈希环用于将冷数据与温数据以纠删码存储策略存储至传统磁盘HDD存储集群;所述监控模块,用于监控SSD存储集群的使用情况,并在SSD存储集群的当前使用率超过当前时间段对应的迁移阈值时,按当前时间段对应的各数据访问次数和最后访问时间选择变冷数据,并通过所述调度模块将变冷数据迁移至HDD存储集群,以实现降级迁移调度;所述监控模块,还用于在HDD存储集群中存在热度标志位由冷标志或温标志上升至热标志的数据时,通过所述调度模块将变热数据迁移至SSD存储集群,以实现升级迁移调度。优选地,所述冷数据、所述温数据以及所述热数据为:基于存储对象的存储容量,将存储容量小于小容量阈值Cl的存储对象作为小数据,将存储容量大于大容量阈值Ch的存储对象作为大数据,将存储容量在小容量阈值Cl和大容量阈值Ch之间的存储对象作为中等数据,将所述大数据作为冷数据,将所述小数据作为热数据,而所述中等数据根据访问频率在冷、热以及温数据中变化,且所述中等数据初次访问时均作为热数据。优选地,所述固态硬盘SSD存储集群中的数据信息采用森林数据结构进行管理,其中,所述森林数据结构由多棵平衡二叉树构成,在代理服务处理写SSD存储集群请求时,则创建一个待写入数据对应的树节点,并将创建的树节点插入所述森林数据结构的树中,以使SSD存储集群中的存储对象均有对应的树节点;在代理服务处理读请求时,则查找所述森林数据结构中是否存在待读数据对应的树节点,若存在则从SSD存储集群读取数据,若不存在,则从HDD存储集群读取数据。优选地,所述监控模块,具体用于监控SSD存储集群中的数据以及SSD存储集群的使用率,若SSD存储集群的当前使用率超过当前时间段对应的阈值Wh时,则通过所述调度模块将SSD存储集群中的变冷数据迁移至HDD存储集群,若SSD存储集群的当前使用率小于当前时间段对应的阈值Wl时,则停止数据降级迁移操作,其中,若SSD存储集群中的数据的最后一次访问时间与当前时间差的绝对值大于当前时间段对应的时间间隔阈值Tlag,且访问次数小于SSD存储集群中其他数据的访问次数时,则认为该存储数据变冷,Wh为存储对象容量占SSD总容量的百分比最大阈值,Wl为存储对象容量占SSD总容量的百分比最小阈值。优选地,在降级迁移调度中不同时间段对应不同的阈值Tlag、Wh以及Wl,以合理规划数据迁移时间。优选地,在降级迁移调度中,分别对森林数据结构中的每棵树根据访问次数进行冷热排序,每次从每棵树中选取前W-Wl比例的变冷节点进行数据迁移,直至SSD存储集群使用率小于Wl,其中,W表示SSD存储集群的当前使用率。优选地,所述监控模块,具体还用于监控HDD存储集群中数据容量小于大容量阈值Ch的数据,并将热度标志位为热的数据通过所述调度模块迁移至SSD存储集群,其中,对于HDD存储集群中数据容量小于大容量阈值Ch的数据,当数据的连续两次访问时间间隔小于最小访问间隔时间Tmin时,将数据对应的热度标志位向上升一级,当连续两次访问时间间隔在最小访问间隔时间Tmin和最大访问间隔时间Tmax之间时,数据的热度标志位不变,当连续两次访问时间间隔大于最大访问间隔时间Tmax时,将数据的热度标志位向下降一级,以确定最终数据的热度标志。为实现上述目的,按照本专利技术的另一个方面,提供了一种基于一致性哈希的分层混合存储方法,包括:设计分层一致性哈希环,其中,所述分层一致性哈希环包括固态硬盘集群哈希环和传统磁盘集群哈希环,所述固态硬盘集群哈希环用于将热数据以副本存储策略存储至固态硬盘SSD存储集群,所述传统磁盘集群哈希环用于将冷数据与温数据以纠删码存储策略存储至传统磁盘HDD存储集群;监控SSD存储集群的使用情况,并在SS本文档来自技高网
...
一种基于一致性哈希的分层混合存储系统及方法

【技术保护点】
一种基于一致性哈希的分层混合存储系统,其特征在于,包括:分层一致性哈希环、监控模块以及调度模块;所述分层一致性哈希环包括固态硬盘集群哈希环和传统磁盘集群哈希环,其中,所述固态硬盘集群哈希环用于将热数据以副本存储策略存储至固态硬盘SSD存储集群,所述传统磁盘集群哈希环用于将冷数据与温数据以纠删码存储策略存储至传统磁盘HDD存储集群;所述监控模块,用于监控SSD存储集群的使用情况,并在SSD存储集群的当前使用率超过当前时间段对应的迁移阈值时,按当前时间段对应的各数据访问次数和最后访问时间选择变冷数据,并通过所述调度模块将变冷数据迁移至HDD存储集群,以实现降级迁移调度;所述监控模块,还用于在HDD存储集群中存在热度标志位由冷标志或温标志上升至热标志的数据时,通过所述调度模块将变热数据迁移至SSD存储集群,以实现升级迁移调度。

【技术特征摘要】
1.一种基于一致性哈希的分层混合存储系统,其特征在于,包括:分层一致性哈希环、监控模块以及调度模块;所述分层一致性哈希环包括固态硬盘集群哈希环和传统磁盘集群哈希环,其中,所述固态硬盘集群哈希环用于将热数据以副本存储策略存储至固态硬盘SSD存储集群,所述传统磁盘集群哈希环用于将冷数据与温数据以纠删码存储策略存储至传统磁盘HDD存储集群;所述监控模块,用于监控SSD存储集群的使用情况,并在SSD存储集群的当前使用率超过当前时间段对应的迁移阈值时,按当前时间段对应的各数据访问次数和最后访问时间选择变冷数据,并通过所述调度模块将变冷数据迁移至HDD存储集群,以实现降级迁移调度;所述监控模块,还用于在HDD存储集群中存在热度标志位由冷标志或温标志上升至热标志的数据时,通过所述调度模块将变热数据迁移至SSD存储集群,以实现升级迁移调度。2.根据权利要求1所述的系统,其特征在于,所述冷数据、所述温数据以及所述热数据为:基于存储对象的存储容量,将存储容量小于小容量阈值Cl的存储对象作为小数据,将存储容量大于大容量阈值Ch的存储对象作为大数据,将存储容量在小容量阈值Cl和大容量阈值Ch之间的存储对象作为中等数据,将所述大数据作为冷数据,将所述小数据作为热数据,而所述中等数据根据访问频率在冷、热以及温数据中变化,且所述中等数据初次访问时均作为热数据。3.根据权利要求1所述的系统,其特征在于,所述固态硬盘SSD存储集群中的数据信息采用森林数据结构进行管理,其中,所述森林数据结构由多棵平衡二叉树构成,在代理服务处理写SSD存储集群请求时,则创建一个待写入数据对应的树节点,并将创建的树节点插入所述森林数据结构的树中,以使SSD存储集群中的存储对象均有对应的树节点;在代理服务处理读请求时,则查找所述森林数据结构中是否存在待读数据对应的树节点,若存在则从SSD存储集群读取数据,若不存在,则从HDD存储集群读取数据。4.根据权利要求1至3任意一项所述的系统,其特征在于,所述监控模块,具体用于监控SSD存储集群中的数据以及SSD存储集群的使用率,若SSD存储集群的当前使用率超过当前时间段对应的阈值Wh时,则通过所述调度模块将SSD存储集群中的变冷数据迁移至HDD存储集群,若SSD存储集群的当前使用率小于当前时间段...

【专利技术属性】
技术研发人员:冯丹刘云齐一川李晶
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1