一种面向分布式文件系统的混合预取方法技术方案

技术编号:37507983 阅读:32 留言:0更新日期:2023-05-07 09:46
本发明专利技术提出了一种面向分布式文件系统的混合预取方法,该方法根据访问文件在存储节点上的数据块分布将访问请求分为两种类型。如果该文件在一个存储节点上数据块较少,则根据历史访问信息挖掘其他关联性较强的数据块进行预取。同时,为了提高预取效率,本发明专利技术综合预取收益和预取操作开销调整预取长度,避免预取浪费。反之如果该文件在一个数据节点上的数据块较多,则针对该文件内部数据块进行预取操作。同时为了避免预取过多不会被访问的数据块,根据该文件的历史访问信息对预取长度进行调整,实现更高的预取效率。另外,本发明专利技术根据预取请求和非预取请求的效益调整存储节点上的缓存分配,进一步提高了存储节点的缓存效益。本发明专利技术能够兼顾分布式文件系统中不同数据块分布情况的预取效率。情况的预取效率。情况的预取效率。

【技术实现步骤摘要】
一种面向分布式文件系统的混合预取方法


[0001]本专利技术属于计算机系统结构分布式文件系统领域,涉及一种面向分布式文件系统的混合预取方法。

技术介绍

[0002]在海量数据存储和处理系统中,普遍采用分布式文件系统作为底层存储系统。为支持大数据分析、自动驾驶、智慧城市等应用的实时查询和秒级响应需求,需要分布式文件系统具有较高的读写带宽。随着处理器和网络性能的不断提升,传统的磁盘等低速存储设备正成为进一步提升分布式文件系统性能的主要瓶颈之一。预取技术是一种利用存储设备随机访问和顺序访问性能差来提升存储系统读性能的技术。在存储设备中,顺序访问性能往往比随机访问性能强,因此,预取技术利用空闲时间预先将关联性较强的数据提前从存储设备中取出,放到距离计算节点近的地方,使得后续无需再额外访问存储设备,从而提高存储系统性能。但是在分布式系统中,一个数据块通常采用多副本机制冗余存储在不同存储节点上,并且支持从这些存储节点进行并发访问。多副本机制一方面提高系统的可靠性和可用性,另一方面也提升了系统的读性能。但是,多副本机制也将单个文件的数据访问打散到不同的存储节本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向分布式文件系统的混合预取方法,其特征在于,根据访问文件在存储节点上的数据块分布将访问请求分为两种类型。如果该文件在一个存储节点上数据块较少,则根据历史访问信息挖掘其他关联性较强的数据块进行预取。同时,为了提高预取效率,本发明综合预取收益和预取操作开销调整预取长度,避免预取浪费。反之如果该文件在一个数据节点上的数据块较多,则针对该文件内部数据块进行预取操作。同时为了避免预取过多不会被访问的数据块,根据该文件的历史访问信息对预取长度进行调整,实现更高的预取效率。另外,本发明根据预取请求和非预取请求的效益调整存储节点上的缓存分配,进一步提高了存储节点的缓存效益。2.如权利要求1所述的一种面向分布式文件系统的混合预取方法,其特征在于,所述文件访问预取操作,具体包括以下步骤:步骤1,元数据服务器收到客户端的文件读取请求后,从文件数据块分布的元数据表中获取该文件的数据块副本分布信息;步骤2,为保持高可用,一个文件的数据块用三副本方式存储。元数据按存储节点从新排列数据块在每个存储节点分布,并计算出该读取请求在每个存储节点的最大访问长度,将该长度作为预取的基准长度;步骤3,如果预取基准长度超过阈值(默认值为4个数据块),则采用基于文件数据块分布来预测该请求的预取长度;步骤4,如果预取基准长度小于阈值,则采用基于数据块访问相关性来预测该请求的预取长度。3.如权利要求2所述的一种面向分布式文件系统的混合预取方法,其特征在于,所述基于文件数据块分布预测预取长度,工作流程具体包括以下步骤:步骤1,根据该文件的历史访问信息,对基准预取长度进行调整,以避免预取浪费。为了减少元数据服务器的开销,基于LRU和最小堆的方法构建一个文件访问计数器,并从中选出热点文件进行跟踪;步骤2,为减少对元数据服务器资源的占用,将文件句柄作为键值,其计数器作为数据,存储在LRU缓存中。当文件的计数比最小堆的根节点计数大的时候,该文件替换掉最小堆的根节点;被淘汰的最小堆根节点则重新放入LRU缓存中。另外,最小堆和LRU缓存的大小都是固定的,一个文件如果长时间未被访问,那么该文件就会从LRU缓存中被淘汰出去;步骤3,元数据将处于最小堆中的文件作为当前的热点文件,并追踪该文件在存储节点上的实际访问长度跟之前预测的基准预取长度的比值δ,并记录在该文件的元数据中;步骤4,在获得请求在一个存储节点上的基准预取长度base_len后,接着查找该文件是否是热点文件,如果是则取出之前记录的比值δ作为该文件的预取调整系数,然后重新计算该请求的预取长度real_len,具体公式为real_len=base_len
×
δ;步骤5,反之,如果该请求不属于热点文件,那么将热点文件的最小比值作为该请求的预取调整系数,然后调整预取长度。4.如权利要求3所述的一种面向分布式文件系统的混合预取方法,其特征在于,所述基于数据块访问相关性预测预取长度,工作流程具体包括以下步骤:步骤1,存储节点负责跟踪历史数据块访问的相关性。存储节点将每个请求的元数据(比如访问文件、偏移地址和数据长度等)缓存在内存一段时间,具体时间长度可以根据空
闲内存大小进行调整,即利用空闲内存存储这部分访问信息,以减少对在线I/O的影响;步骤2,如果一个请求的访问范围(从偏移地址开始到数据长度...

【专利技术属性】
技术研发人员:李勇罗飞顾春华丁炜超
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1