当前位置: 首页 > 专利查询>四川大学专利>正文

基于多衡量指标的HDFS负载源宿节点选取方法技术

技术编号:12200342 阅读:202 留言:0更新日期:2015-10-14 12:44
本发明专利技术公开了一种基于多衡量指标的HDFS负载源宿节点选取方法,属于互联网数据存储领域,包括以下步骤:1)采用AHP方法量化数据节点的负载值;2)采用朴素贝叶斯算法对数据节点进行分类,并按步骤1)量化出的节点的实际负载值进行内部排序;3)根据定义好的节点选取策略选取源宿节点。本发明专利技术的有益效果如下:该方法能够有效地解决HDFS源宿节点选取不准确而导致集群性能下降的问题,使得HDFS集群拥有更佳的均衡效果,减少了HDFS集群负载均衡的频率,降低了HDFS集群用于负载均衡的资源消耗,有效改善HDFS集群的整体性能。

【技术实现步骤摘要】

本专利技术属于互联网数据存储领域,具体设及一种基于多衡量指标的皿FS负载源 宿节点选取方法。
技术介绍
近年来,随着社会信息化程度的提高和互联网技术的飞速发展,越来越多的人使 用互联网络来获取所需的信息、购物W及娱乐。随之产生的海量数据对各类数据存储和处 理中屯、的服务器提出了更高的要求,尤其是如何存储该些海量信息和对海量数据的处理。 云计算和云存储亦是在此背景下应用而生,而化doop是发展势头较好且比较成熟的云计 算平台之一,国内外一些大型企业和研究机构都在利用化doop的工作机制,开发和构建各 自的云计算平台。皿FS化adoop Distribute File Syste化化doop分布式文件系统)作为 化doop中负责海量数据存储的云存储系统,它不仅在应用领域得到广泛使用,而且也得到 了学术界的极大关注。 由于在皿FS中节点数量多,组成复杂,个体资源配置差异大,随着用户数据的增 速加剧,用户数据也许并不是非常均匀的分布在各个数据节点中的,常见的原因是往皿FS 增添新的数据节点,从而造成数据节点间数据负载不均衡,使皿FS的效率和吞吐率降低, 甚至可能会导致皿FS日常运行的不稳定,严重影响服务的质量。而负载均衡技术是保证云 存储系统稳健运行的重要方法。一种好的负载均衡算法则能有效的解决W上该些问题,能 够保障集群稳定的运行。 如果皿FS的负载均衡策略不能具有良好的适应性,则很有可能会造成皿FS中一 些数据节点过于忙碌而成为访问"热点",而有些数据节点则未充分发挥各自的处理计算 能力的情况处于空闲状态,从而会造成集群系统各数据节点负载不均衡,继而影响集群的 整体性能,严重的情况下会导致数据节点擁痕而造成网络服务的中断,甚至可能会引发集 群中的连锁反应,进而可能会演化成集群系统的灾难。 皿FS默认负载均衡算法根据磁盘空间使用率的一个负载指标来反映各数据节点 的工作负载,并由主节点负责所有节点的负载计算,最后在选取负载迁移源宿节点时根据 预先定义好的策略随机选取。默认算法在均衡过程中,单一指标无法真实反映个节点的实 际工作负载状况,主节点负责计算负载会导致主节点的负载加重,而源宿节点选取的随机 性可能会导致部分负载迁移不准确,从而使得部分节点工作负载过重而使其性能下降,甚 至可能会出现数据节点擁痕的状况,进而影响皿FS整体的性能。因此,研究皿FS负载均衡 算法具有很重要的意义。 1.与本专利技术相关的现有技术一 1. 1.现有技术一的技术方案 目前,国内外针对皿FS数据负载均衡算法的改进主要有两个方面: 1)根据集群状况动态改变阔值,而无需管理员手动输入阔值; 2)根据各个节点的网络状况,动态改变用于均衡的网络带宽,W减少集群用于负 载均衡的时间。 该两方面的改进虽然对单一指标问题和主节点负载加重问题都提出了解决方案, 但是并未针对皿FS默认负载均衡算法中源宿节点选取策略进行改进,即沿用了皿FS默认 算法源宿节点选取策略。 在皿FS负载均衡过程中,负载均衡器会向主节点请求一份数据节点报告,在收到 报告之后,使用获得的信息,计算出网络拓扑、集群平均存储使用率,然后把各个数据节点 分成过载节点、负载节点、存储使用率高于平均水平的节点和低于平均水平的节点四类, 再判断是否有节点处于过载和负载状态(也即过载节点列表和负载节点列表中是否有机 器),如果是则继续,否则退出。如果判断可继续,则遍历过载节点列表和负载节点列表W生 成负载重新分配策略。 皿FS生成负载重新分配策略的过程包括W下步骤: a、选择数据移动的源节点和目的节点,选择依据如下: 1)对于负载节点,依据W下条件随机选取作为其源节点,条件优先级自上而下递 减: ①同一机架上的过载节点; ②同一机架上的高于平均使用率的节点; ⑨其他机架上的过载节点; ④其他机架上的高于平均使用率的节点。 。对于过载节点,依据W下条件随机选取作为其目标节点,条件优先级自上而下 递减: ①同一机架上的负载节点; ②同一机架上的低于平均使用率的节点; ⑨其他机架上的负载节点; ④其他机架上的低于平均使用率的节点。b、计算每个源节点到每个目标节点要移动的数据量。如果源节点是过载节点,贝U看容积允许偏差值是否大于1GB,大于则取1GB,否则取允许偏差值。如果源节点只是高于 平均使用率而没有达到过载的条件,则看该节点实际容积率与集群平均容积率之差是否大 于2GB,大于取2GB,否则取前者。目标节点也同理计算。 1. 2现有技术一的技术缺陷: 可W看到皿FS默认源宿节点选取方案没有根据实际的节点工作负载来选取,而 是随机的从队列中进行选取,存在一定的缺陷。[002引 2与本专利技术相关的现有技术二 2. 1现有技术二的技术方案中国专利公开号为104063501A的专利,该专利技术公开了一种基于皿FS的副本平衡 方法,其在集群配置项中设计抽象化计ormance类,并通过屯、跳信息收集各化taNode的性 能数据,在数据迁移时,DataNode的匹配除了需要符合现有Balancer程序的节点匹配规则 夕F,还需要参考化taNode的性能指标数据,按照化taNode的性能评分和存储量的比值进行 评价,并在评价最优和评价最差的化taNode之间进行匹配,使化taNode存放的数据量正比 于化taNode的性能,提高皿FS分布式文件系统负载均衡能力,提升集群性能。在组建集群 时,无需考虑集群中各节点配置的性能差异。 该专利技术中针对皿FS默认的源宿节点选取策略进行了改进。该专利技术的主要步骤如 下: 1)、集群配置: 设计用于代表化taNode性能评价指标的化计ormance类,Performance类提供一 个用于获得对应的性能数据的ge巧erformance方法;定义对应化taNode各性能指标的性 能类,性能类是继承化计ormance类的子类;在皿FS通讯协议的屯、跳信息中增加对应性能 类的性能指标数据; 2)、数据收集:DataNode通过ge巧erformance方法收集与各性能类对应的性能指标数据;然后 由化taNode定时发送屯、跳信息,将上述与各性能类对应的性能指标数据发送给NameNode, 并由NameNode保存上述与各性能类对应的性能指标数据;3)、执行Balancer程序: 由RebalanceServer从NameNode中获取各DataNode的性能指标数据; ①根据获取的性能指标数据,计算各DataNode性能评分;②计算各化taNode性能评分与其存储量的比值a,W及各化taNode的a值的平 均值awg; ⑨通过Balancer命令的threshold参数获取允许的性能误差范围,根据awg结 合t虹esho当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种基于多衡量指标的HDFS负载源宿节点选取方法,其特征在于,包括以下步骤:1)采用AHP方法量化数据节点的负载值;2)采用朴素贝叶斯算法对数据节点进行分类,并按步骤1)量化出的节点的实际负载值进行内部排序;3)根据定义好的节点选取策略选取源宿节点。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘晓洁康承昆林平
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1