The invention relates to a virtual disk Hadoop architecture and scheduling strategy based on the node of the Hadoop architecture of virtual memory disk and disk; the node map and / or reduce task corresponding to cache overflow data stored in the virtual disk, only when the virtual memory disk stored data to virtual memory disk the threshold, it will overflow data stored in the virtual disk; disk access speed several orders of magnitude higher than the disk, the use of virtual memory disk will make Hadoop faster read data; and the use of virtual memory overflow data storage node map and / or reduce tasks corresponding to cache disk to Hadoop, map and reduce task. The cache configuration still exists, configuration parameters without re setting; the other, virtual storage disk with the disk read and write function, which can effectively prevent the Hadoop application code changes.
【技术实现步骤摘要】
一种基于虚拟存储盘的Hadoop架构及调度策略
本专利技术涉及Hadoop数据密集型任务下的优化
,特别涉及一种基于虚拟存储盘的Hadoop架构及调度策略。
技术介绍
Hadoop是一个大数据领域非常成功的框架,被广泛应用在工业和学术上。它采用先进的map/reduce思想,通过将大规模的数据拆分成大量的小的块,然后分发给集群中的各个节点,让每个节点来处理自己负责的区块的内容。通过这种方式以让单台计算机难以完成的任务可以通过多台计算机来完成。然而,现有的Hadoop在处理数据密集型应用的时会存在以下问题:现有的Hadoop处理通过缓存来存储中间数据,如果缓存不足,缓存的溢出数据将会被存储于磁盘。具体过程为:执行map任务时,如果map任务对应的缓存不足时,缓存的溢出数据将存储于map任务所在节点的磁盘,待map任务执行完毕,map任务存储于缓存和磁盘的输出数据将聚合存储于磁盘供reduce任务调用;如果map任务对应的缓存充足时,待map任务执行完毕,map任务存储于缓存的输出数据将转移存储于磁盘供reduce任务调用;故,无论如何改变map任务对应的缓存的大小,在map任务执行完毕后均会有大量的数据分发到磁盘,导致数据的下一步读取过慢而影响整体性能。在所有map任务执行完毕,reduce任务所在的节点会复制来自map任务的输出数据,此输出数据将优先存储于reduce任务对应的缓存中,如果缓存不足,缓存的溢出数据将会被存储于reduce任务所在节点的磁盘,待复制完毕后,复制存储于缓存和磁盘的map任务的输出数据将聚合存储于磁盘供执行reduce任务使 ...
【技术保护点】
一种基于虚拟存储盘的Hadoop架构,其特征在于,所述Hadoop架构中的节点具有虚拟存储盘和磁盘;所述虚拟存储盘,其用于存储所述节点上map和/或reduce任务对应缓存的溢出数据;所述磁盘,其用于当所述虚拟存储盘已存储的数据达到所述虚拟存储盘的门限时,存储所述溢出数据。
【技术特征摘要】
1.一种基于虚拟存储盘的Hadoop架构,其特征在于,所述Hadoop架构中的节点具有虚拟存储盘和磁盘;所述虚拟存储盘,其用于存储所述节点上map和/或reduce任务对应缓存的溢出数据;所述磁盘,其用于当所述虚拟存储盘已存储的数据达到所述虚拟存储盘的门限时,存储所述溢出数据。2.根据权利要求1所述一种基于虚拟存储盘的Hadoop架构,其特征在于,所述虚拟存储盘配置有tmpfs文件系统。3.根据权利要求1所述一种基于虚拟存储盘的Hadoop架构,其特征在于,所述虚拟存储盘未达到所述门限的区域划分有用于存储Hadoop输入输出数据的空间。4.根据权利要求1至3中任一项所述一种基于虚拟存储盘的Hadoop架构,其特征在于,所述门限包括第一门限和第二门限,所述第一门限低于所述第二门限。5.一种基于虚拟存储盘的Hadoop调度策略,其特征在于,采用权利要求1至2中任一项所述一种基于虚拟存储盘的Hadoop架构;将所述节点上map和/或reduce任务对应缓存的溢出数据存储于所述虚拟存储盘,且当所述虚拟存储盘已存储的数据达到所述虚拟存储盘的门限时,将所述溢出数据存储于所述磁盘。6.根据权利要求5所述一种基于虚拟存储盘的Hadoop调度策略,其特征在于,所述虚拟存储盘未达到所述门限的区域划分有用于存储Hadoop输入输出数据的空间;将Hadoop输入输出数据存储于所述空间。7.根据权利要求5所述一种基于虚拟存储盘的Hadoop调度策略,其特征在于,所述门限包括第一门限和第二门限,所述第一门限低于所述第二门限;当所述节点上map或reduce任务对应缓存产生溢出数据时,进行如下操作:步骤1,判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第一门限;是,则执行步骤2;否,则执行步骤7;步骤2,判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第二门限;是,则执行步骤3;否,则执行步骤6;步骤3,将所述虚拟存储盘已存储的执行完毕时刻最接近当前时刻的map或reduce任务对应缓存产生的溢出数据转移到所述磁盘;步骤4,再次判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第二门限;是,则返回执行步骤3,否,则执行...
【专利技术属性】
技术研发人员:彭凯,王靖静,桂宾,马威,
申请(专利权)人:武汉盛信鸿通科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。