用于执行去重复操作的碎片控制制造技术

技术编号:10898634 阅读:104 留言:0更新日期:2015-01-12 19:50
在此介绍的技术能够用于文件系统的去重复操作,不会由于在所述文件系统中数据集的碎片而显著影响所述文件系统的读取性能。所述技术包括通过承载所述文件系统的存储服务器确定将会被引入到存储在所述文件系统中的数据集的碎片的级别,作为在所述数据集上执行去重复操作的结果。所述存储服务器接着将所述碎片的级别与一阈值比较,并基于比较所述碎片的级别与所述阈值的结果确定是否执行所述去重复操作。所述阈值表示在所述文件系统的所述数据集中的可接受的碎片的级别。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】在此介绍的技术能够用于文件系统的去重复操作,不会由于在所述文件系统中数据集的碎片而显著影响所述文件系统的读取性能。所述技术包括通过承载所述文件系统的存储服务器确定将会被引入到存储在所述文件系统中的数据集的碎片的级别,作为在所述数据集上执行去重复操作的结果。所述存储服务器接着将所述碎片的级别与一阈值比较,并基于比较所述碎片的级别与所述阈值的结果确定是否执行所述去重复操作。所述阈值表示在所述文件系统的所述数据集中的可接受的碎片的级别。【专利说明】用于执行去重复操作的碎片控制 相关申请夺叉引用 本申请要求2012年2月29日提交的美国申请号13/408,051的优先权,其通过引 用的方式被整体并入此文。
本专利技术的至少一个实施例涉及由存储服务器存储的数据的去重复,且特别涉及在 去重复的过程中控制被引入到数据集的碎片化级别。
技术介绍
存储控制器是一种物理处理装置,用于存储和检索代表一个或多个主机的数据。 网络存储控制器可被配置(例如,由硬件、软件、固件或它们的任何组合)以作为存储服务 器操作,其为一个或多个联网客户端服务,以在一组大容量存储装置(诸如磁或光学存储 磁盘、磁带,或闪存)中存储和管理数据。 大容量存储装置提供了一系列可存储数据的可寻址的位置。一些装置,例如磁带 驱动器,仅允许存储位置被按顺序访问,而其他装置,诸如硬盘或闪存,允许随机访问。大容 量存储装置可以被组合,以给予一具有某理想特性的单个装置更高层的印象。例如,独立磁 盘冗余阵列("RAID阵列")可以包含在之中散布数据的两个或多个硬盘,以获得传输速度 的增加、容错的改进或存储容量的简单增加。在RAID阵列中的各种装置上的数据放置(以 及误差检测和校正信息的计算和存储)可以通过硬件和/或软件来管理。 许多同时代的数据处理系统消耗和/或产生大量数据。大容量存储装置,如硬盘 驱动器通常被用来存储这些数据。为了跟上由这些处理系统所消耗和产生的数据量,大容 量存储装置的存储容量和/或在大容量存储装置上的使用空间的效率可以被提高。一种用 于增加在大容量存储装置上的空间使用效率的方法是执行消除存储在大容量存储装置上 的冗余数据的去重复操作。 然而,去重复通常向被预先作为连续块存储在磁盘上的数据集引入碎片。每个可 寻址的存储位置通常可以容纳多个数据字节,这样的位置被称为"块"。当数据集的数据块 被分离和/或无读取顺序式存储时,数据集被称为是"被碎片化"。读取被碎片化数据集的 过程可能造成存储系统执行多个读取操作以获得对应于数据集的数据块的内容。许多类型 的大容量存储装置的机械性质限制了它们的速度为系统潜在处理速度的一小部分,特别是 当数据集被碎片化并要求多次读取操作来检索数据集时。因为由去重复引起的碎片可能对 存储系统性能产生负面影响,许多存储系统用户禁用去重复操作,因此不会从去重复的空 间节省优势中受益。 因此,需要一种用于平衡去重复操作过程中引入碎片的影响和用户所期望的存储 系统性能的技术。
技术实现思路
在此介绍的技术能够用于文件系统的去重复操作,不会由于在文件系统中数据集 的碎片而显著影响文件系统的读取性能。在一个实施例中,承载文件系统的存储服务器确 定将会被引入到存储在文件系统中的数据集的碎片的级别,以作为在数据集上进行去重复 操作的结果。存储服务器接着将碎片的级别与一阈值比较,并确定是否基于比较的结果执 行去重复操作。阈值表示在文件系统的数据集中的可接受的碎片的级别。 在一个实施例中,存储在文件系统中的数据的碎片的级别通过执行预读以计算在 数据集上执行去重复操作后访问数据集所需的读取操作的数量以及通过计算碎片索引被 确定,碎片索引是去重复操作后的读取操作的数量与访问一理想数据集的读取操作的数量 的比值。理想数据集是指被存储在连续的物理数据块内并且能够以具有最低数量的读取操 作被访问。碎片索引是由于去重复操作使得碎片增加的指示。 存储服务器可以通过确定物理卷块号(PVBN)的列表,对PVBN列表进行排序以及 计算块的连续组数来计算在执行去重复操作后访问数据集的读取操作的数量,物理卷块号 (PVBN)的列表将表示在去重复操作被执行后的数据集。 以上概括的技术的其它方面通过附图和下面的详细说明将是显而易见的。 【专利附图】【附图说明】 通过例子和非限制性附图对本专利技术的一个或多个实施例进行说明,在附图中,相 同的引用代表相同的元件。 图1所示是网络存储系统的示例。 图2所示是可以实现一个或多个网络存储服务器的存储控制器的示例图。 图3示意性地示出了在存储服务器内的存储操作系统的体系结构的示例图。 图4A所示是文件系统中的文件的缓冲树的框图表示。 图4B所示是在文件系统上执行去重复过程后在文件系统中的文件的缓冲树的框 图表示。 图5所示是用于确定是否执行去重复操作的过程的流程图。 图6所示是用于确定通过在数据集上执行去重复操作而将被引入的碎片的级别 的流程图。 图7所示是在执行去重复操作之前计算在去重复后访问数据集的读取操作的数 量的流程图。 【具体实施方式】 在本说明书中所提到的"实施例"、" 一实施例"或类似的表达,表示在本专利技术的至 少一实施例中包含所描述的特定的特征、结构或特性。在本说明书中出现的这类词汇不一 定都是指相同的实施例。 图1所示是网络存储系统的示例,该系统包括多个客户端系统104、存储服务器 108以及连接客户端服务器104和存储服务器108的网络106。如图1所示,存储服务器 108与在大容量存储子系统105内的多个大容量存储装置112,诸如磁盘,建立连接。可选 择地,一些或所有的大容量存储装置112可以是其它类型的存储器,诸如闪存、固态驱动器 (SSD)、磁带存储器等等。但是,为了便于说明,存储装置112在此被假定为是磁盘。 存储服务器108可以是,例如,可得自NetApp#公司的FAS-系列之一的存储服务 器产品。客户端系统104通过网络106被连接到存储服务器108,网络106可以是分组交换 网络,例如局域网(LAN)或广域网(WAN)。此外,存储服务器108可以经由交换结构(未示 出)被连接到磁盘112,例如,交换结构可以是光纤分布式数据接口(FDDI)网络。值得注意 的是,在网络数据存储环境中,任何其它合适的数量的存储服务器和/或大容量存储装置, 和/或任何其它合适的网络技术,也可以被使用。 存储服务器108可以以一种传统的方式使得在磁盘112上的一部分或所有的存储 空间可用于客户端系统104是。例如,每个磁盘112可以被实施,作为单独的磁盘、多个磁 盘(例如,RAID组),或任何其它合适的大容量存储装置。在大容量存储子系统105内信息 的存储可以被实施作为一个或多个存储卷,其包括配合以定义卷上的卷块号(VBN)空间的 整体逻辑排列的物理存储磁盘112的集合。尽管不是必须的,每个卷一般与其自身的文件 系统相关联。 与卷/文件系统相关联的磁盘通常被组成为一个或多个组,其中每个组可以作为 独立(或廉价)磁盘冗余阵列(RAID)被操作。大多数RAID实现方式(如RAID-4级实现本文档来自技高网
...

【技术保护点】
一种方法,包括:由存储服务器计算将会被引入到被所述存储服务器存储的数据集的碎片的级别,作为在所述数据集上进行去重复操作的结果;以及基于所述计算的结果,由所述存储服务器确定是否执行所述去重复操作。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:艾洛克·沙玛苏尼尔·沃尔沃克韦杰扬蒂·巴拉德瓦杰
申请(专利权)人:网络装置公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1