一种在异构HDFS集群下的数据分配方法组成比例

技术编号:19822182 阅读:28 留言:0更新日期:2018-12-19 14:50
本发明专利技术提供了一种在异构HDFS集群下的数据分配方法,包括:步骤1,基于Trace文件分析预测文件的初始热度值;步骤2,利用BP神经网络调整文件的当前热度值;步骤3,根据文件的当前热度值,为文件设置相应的存储策略,将不同热度的文件存储到具有不同读写性能的异构设备中,实现对冷热数据的分类存储。本发明专利技术在实际的HDFS集群运行时,实现了对冷数据和热数据更加合理的实时分配,从而能够充分利用集群中SSD和机械硬盘这两种现有异构存储设备不同的读写特性,更加精确地将经常访问的热数据存储到SSD,不常访问的冷数据存储到机械硬盘,在一定程度上提高了集群中数据的存取效率和整个集群的吞吐量,从而提升了整个HDFS集群的读写性能。

【技术实现步骤摘要】
一种在异构HDFS集群下的数据分配方法
本专利技术属于数据处理
,具体涉及一种在异构HDFS集群下的数据分配方法。
技术介绍
现有HDFS(HadoopDistributedFileSystem,分布式文件系统)数据分配方法(DISK优先算法和SSD优先算法)通常是首先为所有数据统一分配存储策略,然后根据数据的访问频率去动态调整其存储策略,最终实现冷热数据的分类存储。然而,如果采用传统策略对HDFS集群中的数据进行分配,可能会造成:在HDFS集群运行时,1)一些不常访问的冷数据可能被存储在集群中的SSD上,导致集群中固态硬盘的命中率不高,无法充分发挥SSD作用,造成SSD硬件资源的浪费,在一定程度上影响了集群的性能;2)一些频繁访问的热数据可能被存储在DISK上,导致这些数据的读写效率低,降低了系统的吞吐量和存取效率,在一定程度上也影响了集群的性能。这样,由于这些数据没有被精确分配到HDFS集群中合适的存储介质上,可能导致这些数据的读/写效率较低,访问性能较差,从而可能对整个HDFS集群的性能造成一定程度的影响。
技术实现思路
本专利技术的目的是提供一种在异构HDFS集群下的数据分配方法,来精确地分配冷数据和热数据,实现在集群实际运行时:将热数据实时分配到集群的SSD上,提高数据的访问速度;将冷数据移出集群的SSD,节省SSD空闲存储容量,以便更高效的数据处理,更好地发挥集群中SSD的作用。最终在一定程度上提高整个集群的读写性能。本专利技术提供了一种在异构HDFS集群下的数据分配方法,包括:步骤1,基于Trace文件分析预测文件的初始热度值;步骤2,利用BP神经网络调整文件的当前热度值;步骤3,根据文件的当前热度值,为文件设置相应的存储策略,将不同热度的文件存储到具有不同读写性能的异构设备中,实现对冷热数据的分类存储。进一步地,步骤1包括:基于HDFS应用程序的历史Trace或当前HDFS应用程序的历史记录进行统计、分析,基于可能影响文件热度的因素构建模型,通过构建的模型预测出不同类型文件的初始热度值;其中,可能影响文件热度包括文件类型、文件大小和文件上传用户。进一步地,步骤2包括:基于可能影响文件未来访问热度的关键因素构建模型计算文件当前热度值,并利用BP神经网络进行优化调整;其中,关键因素包括所述文件在某时间段的访问次数、文件的大小、文件的类型和类型相同的所有文件在该时间段的总访问次数。进一步地,步骤3包括:对所有上传的新文件,进行热度值排序,根据排序情况,为热度值较大的文件设置高级别的存储策略,为热度值较小的文件设置低级别的存储策略,同时,检查SSD存储设备的空闲容量,决定是否为热度值较大的文件设置高级别的存储策略,重复上述过程,直到所有文件都已被分配正确的存储策略。进一步地,步骤3还包括:基于热度值设置文件置换策略,包括:在文件的热度值发生改变时,检查新热度值的范围,如果新热度值大于高级别存储策略设定的最低值,为当前的文件设置高级别的存储策略,并将文件移动到相应的存储设备中,如果相应的存储设备没有足够的空闲容量来存储当前文件,在该存储设备中选择一个具有最低热度值的文件,为此文件设置低级别的存储策略,并将其移动到相应的设备,以释放容量,重复上述过程,直到可以存储当前文件为止。与现有技术相比本专利技术的有益效果是:在实际的HDFS集群运行时,实现了对冷数据和热数据更加合理的实时分配,从而能够充分利用集群中SSD和机械硬盘这两种现有异构存储设备不同的读写特性,更加精确地将经常访问的热数据存储到SSD,不常访问的冷数据存储到机械硬盘,在一定程度上提高了集群中数据的存取效率和整个集群的吞吐量,从而提升了整个HDFS集群的读写性能,使得HDFS集群在数据分配方面的表现更加出色。附图说明图1是本专利技术一种在异构HDFS集群下的数据分配方法的流程图;图2是本专利技术基于Trace分析预设文件初始热度值示意图;图3是本专利技术计算被访问文件实时热度值示意图;图4是本专利技术BP调整流程图;图5是本专利技术HDFS存储策略分配图。具体实施方式下面结合附图所示的各实施方式对本专利技术进行详细说明,但应当说明的是,这些实施方式并非对本专利技术的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本专利技术的保护范围之内。本实施例提供了一种在异构HDFS集群下的数据分配方法(基于HDFS的数据动态分配策略---DDAS),以适应现有HDFS系统中的异构存储设备和提升HDFS整体性能。DDAS综合考虑了许多可能影响数据未来访问热度的关键因素,首先基于历史Trace文件分析预测数据的初始热度,进行初次分配;然后利用BP神经网络来调整和优化数据的当前热度值,进行实时分配,从而最终实现数据的精确分配。具体包括:(一)基于Trace文件分析预测文件的初始热度值(通过热度值来反映文件热度)。基于其他HDFS应用程序的大量历史Trace(或当前HDFS应用程序的历史记录)进行统计、分析,综合考虑其中文件类型、文件大小和文件上传用户等可能影响文件热度的一些因素,构建模型来预测出不同类型文件的初始热度值。这样,当每个新文件第一次上传到HDFS集群上时,根据新文件的类型,为其预设一个初始热度值,实现对文件热度的初始分配。实现系统初始对第一次上传的文件进行分配时,将文件根据基于历史Trace文件分析预设的初始热度值的不同分别存放到SSD和普通磁盘上,从而减少文件在实际应用中的迁移开销。(二)利用BP神经网络调整文件的当前热度值。当文件被访问时,综合考虑文件类型、文件大小和文件访问次数等可能影响影响文件热度的关键因素(如:该文件在某时间段的访问次数、该文件的大小、该文件的类型和类型相同的所有文件在该时间段的总访问次数等),构建模型来计算文件的当前(实时)热度值,之后利用BP神经网络进行调整。然后根据调整后的热度值,预测出经常访问的热文件和不常访问的冷文件,实现对文件热度的实时分配,从而使系统对文件冷热度的实时分配更加精确。而传统分配方法中基于访问频率的冷热文件分配是利用过去一段时间的文件访问次数来预测文件未来的访问热度,而忽略了文件类型和文件大小等一些其他关键因素对文件未来访问热度影响的事实。(三)基于热度值的数据动态分配策略设计与实现。利用HDFS提供的六种存储策略,根据文件的当前热度值,为文件设置相应的存储策略,进而通过HDFS提供的存储接口,精确地将不同热度的文件存储到具有不同读写性能的异构设备中,实现对冷热数据的分类存储,从而有效地提高数据的访问效率,最终提升整个HDFS集群的数据读写性能。下面对本专利技术作进一步详细说明。HDFS数据分配策略(方法)的总流程参图1所示。具体内容包括:1、基于Trace文件分析预设文件初始热度值。通过热度值来衡量文件热度,设计出了一种基于Trace分析预设文件初始热度值的方法,如图2所示。在该方法中,根据上传文件大小、上传用户和上传文件类型等属性来预测新文件的初始热度值。首先,统计与分析其他HDFS应用程序的大量Trace(即文件上传/下载记录)(或当前HDFS应用程序的历史记录)。然后,构建一个模型用于存放最近的20000行历史信息,而这些历史信息中记录了文件的类型和大小这两个属性对文件访问热本文档来自技高网...

【技术保护点】
1.一种在异构HDFS集群下的数据分配方法,其特征在于,包括:步骤1,基于Trace文件分析预测文件的初始热度值;步骤2,利用BP神经网络调整文件的当前热度值;步骤3,根据文件的当前热度值,为文件设置相应的存储策略,将不同热度的文件存储到具有不同读写性能的异构设备中,实现对冷热数据的分类存储。

【技术特征摘要】
1.一种在异构HDFS集群下的数据分配方法,其特征在于,包括:步骤1,基于Trace文件分析预测文件的初始热度值;步骤2,利用BP神经网络调整文件的当前热度值;步骤3,根据文件的当前热度值,为文件设置相应的存储策略,将不同热度的文件存储到具有不同读写性能的异构设备中,实现对冷热数据的分类存储。2.根据权利要求1所述的一种在异构HDFS集群下的数据分配方法,其特征在于,所述步骤1包括:基于HDFS应用程序的历史Trace或当前HDFS应用程序的历史记录进行统计、分析,基于可能影响文件热度的因素构建模型,通过构建的模型预测出不同类型文件的初始热度值;其中,所述可能影响文件热度包括文件类型、文件大小和文件上传用户。3.根据权利要求2所述的一种在异构HDFS集群下的数据分配方法,其特征在于,所述步骤2包括:基于可能影响文件未来访问热度的关键因素构建模型计算文件当前热度值,并利用BP神经网络进行优化调整;其中,所述关键因素包括所述文件在某时间段的访问次数、所述文件的大小、所述文件的类型...

【专利技术属性】
技术研发人员:傅颖勋文士林马礼
申请(专利权)人:北方工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1