基于反馈的网格资源智能监控方法技术

技术编号:3479321 阅读:207 留言:0更新日期:2012-04-11 18:40
基于反馈的网格资源智能监控方法在采用固定周期轮询监控的基础上,利用模糊数学方法对反馈得到的数据进行分析,根据处理结果设定新的轮询周期,使资源实时性与负载得到了很好的平衡。这样解决了网格监控系统中由于固定周期性监控所引起的系统性能下降或监控实时性不强的问题,使目录服务中存储的性能数据更加准确,降低了资源消耗,减少了资源监控的更新操作次数。

【技术实现步骤摘要】

本专利技术主要涉及一种网格资源监控方法,用于解决网格资源监控中固定轮询 周期不足,资源监控的更新操作次数多的问题,属于网格计算

技术介绍
网格计算作为一个重要的新领域,已经获得了全球范围的广泛关注。将网格 中众多的跨越不同自治域,在地理上分布的异构的计算机和资源组织起来,是国 内外研究的重点。应运而生的网格技术借用电力系统的概念,利用网格,人们可 以像用电一样,接通开关,就可以方便地使用资源。网格是一个广域范围内的无 缝集成和协同计算环境,各类资源在网格中被整合应用。网格中的资源包括计算 资源、存储资源、通信资源、软件资源、信息资源、知识资源等。而在网格技术 中,监控方法是一个重要组成部分。监控方法可以帮助资源管理者分析系统性能, 及时发现问题,合理配置资源;为网格中的其它服务提供需要的信息,帮助用户 选择最合适的资源。由于网格资源的动态性,即资源可以动态地加入或退出,故对网格资源进行 监控也要考虑到动态性,而且监控必须实时,因为节点的信息是动态变化的;然 而频繁地监控会增大系统负担,系统效率也会降低。例如如果我们监控一个短 期内没有较大变化的资源状态,就会增加不必要的监控负担。目前一些组织已经 开发了网格监控系统,比如NWS, MDS等。他们或者自己开发了信息收集工具 sensor (传感器),或者利用已有的资源监控工具Ganglia (甘格利亚)或Hawkeye (好 克亚)。这些监控系统一般都将网格划分成地理位置集中的若干虚拟区域VO (Virtual Organization),每个虚拟区域VO中设置一个全局目录服务器,主要存储 节点的物理地址等静态信息,在每个节点中配置一个本地目录服务器,在节点的 每个主机中为性能数据设置传感器,这些性能数据的传感器按照固定周期轮询采 集性能数据,在每个节点中还设置了传感器管理器,管理传感器和将采集到的数据存入本地目录服务中。他们都起到了重要作用,但都有一些不足,这些资源监控 系统都是采用固定周期的轮询策略采集资源当前性能的性能数据。这样就会存在 之前所叙述的问题。因此研究一种新型网格资源监控系统具有重要意义。
技术实现思路
技术问题本专利技术的目的是提供一种,解 决现有技术中固定轮询周期监控实时性不强,资源监控的更新操作次数多的问题。 采用本专利技术提出的方法可以解决固定轮询周期所引起的系统性能下降或监控实时 性不强的问题。技术方案本专利技术的方法是一种改进性的监控方法,通过引入基于反馈的智 能监控方法而提出的,其原理是利用模糊数学方法对反馈得到的数据进行分析, 以分析结果确定下一周期的轮询时间,解决了网格监控方法中由于固定周期性监 控所引起的系统开销等问题。 一、体系结构图l给出了一个运用这种方法的监控系统的设计体系结构,它的功能部件主要 包括信息提供者(Infonnation Provider),适配器(Adapter),智能控制器,索引服务 器。下面我们给出几个部分的具体说明信息提供者在监控节点上运行的信息收集源,收集各种类型的资源状态信 息。包括Globus发行的GRAM (网格资源分配管理器)和可以与MDS集成的外部 信息提供者如Ganglia (甘格利亚)或Hawkeye (好克亚)。GRAM (网格资源分配 管理器)发布有关网格资源的CPU和内存信息,以及与作业队列和所提交的作业 有关的调度信息,所获得的信息较少,所以在监控网格系统时,通常与Ganglia等 外部信息提供者结合使用,它可以获得主机名、处理器、内存、操作系统以及文 件系统等更多的主机信息。适配器不同的信息采集器之间存在着差异。适配器的作用就是消除这些差 异,从不同类型的信息采集器中获取数据,然后交给智能控制器部件处理。适配 器使得在选择信息提供者时有很好的灵活性。智能控制器在轮询周期的基础上,将反馈回来的信息与前一时刻查询到的 信息数据利用模糊数学进行比较,再根据不同的结果做出不同的反映即不同周期的设置。索引服务器主要是用于存放所收集到的系统信息,信息提供者将获取的系 统信息报告给GRAM,然后GRAM将获得的信息汇总到索引服务中,以供客户端请求使用。二、方法流程1、网格资源监控方法流程监控的信息通常包括静态信息,例如CPU数量、时钟速度、物理内存总量、 虚拟内存以及可用磁盘空间,和动态信息包括可用CPU的个数、可用内存、队列中等待执行的作业个数、当前资源的利用率等。目前已有的监控方法一般都采用固定周期轮询策略来监控所需的信息,以Ganglia为代表,它的监控流程如图2所示。Ganglia是一个分布式的监视系统,它有两个Daemon (后台程序),分别是 客户端Ganglia Monitoring Daemon (gmond)(后台监控进程)和服务端Ganglia Meta Daemon (gmetad)(后台监控进程)。后台监控进程(gmond)使用多播协 议订阅收集每个节点的状态.。成员节点收到某一节点的信息表示该节点是可用的, 若在几个周期内都没收到回应信息则表示该节点不可用。先设定固定轮询周期, 当更新周期到来时,节点监控它本地的资源并通过多播协议将监控数据发送出去。 在集群之间后台监控进程(gmetad)使用点到点的树型连接来汇集所有集群的状 态。因为集群中的每一个节点包含该集群全部的监控数据,所以树中的每一个叶 子节点逻辑上代表一个不同的集群,当然出于容错方面的考虑,可对每个叶子节 点指定多个实际节点;非叶子节点是信息的汇集点,代表一些集群的集合,它们 周期性地收集即轮询其子节点的信息。 网格资源监控方法的主要工作流程stepl:配置外部信息提供者如Ganglia,将它们与网格自带的监控器集成使用; step2:设置固定轮询周期,设为T;step3:数据采集者按照固定周期轮询T采集性能数据,如主机名、处理器、内存、文件系统等信息;step4:利用订阅/通知机制或其它机制订阅用户所需监控的信息;step5:将利用信息提供者采集到的性能数据定时汇总到目录服务中,供用户使用。62、流程在网格环境中,监控系统不断地向资源状态信息发出请求,当新的信息产生 时,监控系统中的状态就要更新。若更新太慢,会导致目录服务器中的性能数据 过期,而定期的轮询容易引起更新过快或过慢的问题,需要制定有效的轮询策略, 在性能数据变化幅度剧烈的时候,縮短轮询周期,在性能数据变化幅度平缓的时 候,增加轮询周期。所以需要设计一种新的方案来实时地根据网格负载的变化而 改变轮询周期。在分布式计算中,资源状态信息的改变很大程度上依赖于CPU的 改变,小部分依赖于内存等的变化,同样的在网格环境中也是如此。因此,如果 我们根据CPU和内存对网格环境的影响设个权值,观察它们的利用率就可以大体上预测其它资源的改变。例如假定CPU和内存的利用率几乎没有改变,那其它 的资源状态也不会有大的改变;如果它们的利用率有很大的变化,那其它的资源 状态也会有很多变化。换句话,网格监控事件的改变依赖于CPU和内存的改变。 因此,当它们的利用率有较大改变时,其它资源应该立即监控,这种情况下,我 们应该调整监控的间隔,让资源监控服务获取更新后的资源状态信息。基于反馈 的网格资源智能监控方法主要是运用了模糊数学的方法。该方法主要应本文档来自技高网
...

【技术保护点】
一种基于反馈的网格资源智能监控方法,其特征在于该方法应用于由信息提供者、适配器、智能控制器和索引服务器组成的网格环境中,该方法的步骤为:步骤1.信息提供者有内部信息提供者和外部信息提供者,并将外部信息提供者与网格自带的智能控制器集成,将监控所需的环境配置完成;步骤2.设置资源监控的初始轮询周期T,再设最大轮询周期Tmax和最小轮询周期Tmin;步骤3.数据采集者按照轮询周期T采集性能数据;步骤4.将步骤3采集到的性能数据交给适配器处理,将不同格式的数据做标准转化;步骤5.汇聚框架利用订阅/通知机制订阅所需监控的信息;步骤6.将采集到的性能数据定时汇总到索引服务器中,供用户使用,并将该时刻得到的数据保存在智能控制器中,记为x[1];在智能控制器中定义2个数组x[n]和t[n],分别用来存储最后n个轮询值和轮询时间,x[i]表示轮询时间t[i]对应的轮询值,x[i]和t[i]确定一个轮询点;步骤7.确定对象,设最近的轮询时间为对象t[1],一个周期前的轮询时间为对象t[2],依此类推直到对象t[n];对象t[i]对应的属性即轮询值x[i]={x↓[1i],x↓[2i],…,x↓[mi]};其中x↓[1i],x↓[2i],…,x↓[mi]分别代表要监控的信息;在智能控制器中,取出之前保存过的n-1个周期的轮询值,x[2],x[3]…x[n];步骤8.根据n个轮询值x[1],x[2]…x[n]建立模糊相似关系;最近n个轮询点的变化幅度可用数r↓[ij]∈[0,1]来描述,根据算术平均最小法r↓[ij]=*(x↓[ik]∧x↓[jk])/1/2*(x↓[ik]+x↓[jk]),确定r↓[ij]的值,建立模糊相似矩阵R=(r↓[ij])↓[n*n],其中r↓[ij]=r↓[ji],r↓[ii]=1,其中i,j=1,2…,n;n为轮询值的个数,m为每个轮询值所对应的监控信息个数,k∈[1,m];步骤9.在模糊相似矩阵R中,由于该矩阵是对称的,主对角线的左下部与右上部相同,我们只需看左下部即可;若观察到的r↓[12]值在[a↓[n],1],即该时刻与前一时刻所监控到的信息基本保持不变,也就是说系统比较稳定,这时再观察之前几个周期内的r的值,若值一直很大,接近于1,即在[a↓[n],1]的范围内,也就意味着很长一段时间内系统性能都很稳定,便可以扩大轮询周期,当然新的轮询周期须小于Tmax,否则取Tmax,再转向步骤3执行,一直循...

【技术特征摘要】

【专利技术属性】
技术研发人员:王汝传严飞季一木任勋益易侃邓松杨明慧蒋凌云付雄张琳
申请(专利权)人:南京邮电大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利