用于实现高可用性系统的远程企业管理的系统和方法技术方案

技术编号:3519911 阅读:159 留言:0更新日期:2012-04-11 18:40
提供高可用性系统的远程企业管理的方法、系统和程序。多个高可用性系统在企业中连网,并由远程企业服务器整体管理。在每个高可用性系统内,群集管理控制器监视高可用性系统的特定组件的状态,当所述状态指示错误时,作出反应,以调整该高可用性系统。另外,就每个高可用性系统来说,监视控制器检测何时群集管理控制器对特定组件的状态作出反应,并检测该高可用性系统的多个组件的状况。监视控制器随后向远程企业服务器报告所述错误和所述多个组件的状况。使远程企业服务器能够根据从多个高可用性系统中的每一个接收的报告,管理每个高可用性系统。

【技术实现步骤摘要】

本专利技术涉及改进的高可用性群集管理(high availability clustermanagement),具体地说,涉及高可用性系统的远程群集管理。更具体地说,本专利技术涉及企业网络中的多个高可用性系统的改进远程监控和管理。
技术介绍
对于工作量和需求不断波动,并且处理客户请求极其重要的零售商、银行及其它在线服务,已开发了高可用性(HA)系统来处理紧要使命操作(mission-critical operation)。通常,HA系统是用于消除由网络系统的组件中的计划的或者非计划的停机引起的服务失败或者使之降至最少的系统。提供HA系统的关键方法是通过分成一群服务器的冗余硬件和软件组件。在HA系统中,冗余至关重要,因为当在群集的一个节点中发生故障时,系统的一个节点执行的处理转移给另一节点。例如,在两节点HA群集中,一个节点通常被指定为主节点,另一节点一般被指定为备用节点。通常,当群集被启动时,主节点一开始运行某一应用程序(application)。另外,备用节点一般被指定成当主节点发生故障时,运行所述应用程序。HA群集系统一般实现群集管理器过程,所述群集管理器过程定期轮询主节点(或者检查主节点的心跳(heartbeat)),以确定主节点是否仍然活动。如果未检测到“心跳”,那么群集管理器把软件进程转移到群集中的另一服务器。HA系统的一个重要特征是恢复时间。通常,HA系统中的恢复时间是备用节点从发生故障的主节点接管应用程序所用的时间。在基于销售的HA系统中,恢复时间特别重要,因为如果客户不能很快完成交易,那么零售商会失去有价值的买卖。甚至30秒的恢复时间延迟也会减少零售商的买卖交易。HA系统的另一重要特征是在故障转移(failover)期间,几乎不损失数据。特别地,重要的是实现提交数据的几乎不损失。例如,在故障转移期间,失去有价值的客户定单信息或者客户信息是不利的。为了实现短的恢复时间和故障转移期间数据的几乎不丢失,重要的是一开始按照建立HA系统的方式组合硬件和软件。但是,在起动HA系统之后,重要的是监视和调整HA系统的配置,设法提高故障转移和纠正其它错误的效率。当为HA系统配置硬件和软件时,许多开发者已开发了定制HA软件服务,以便控制经常需要新硬件的定制环境中的应用程序。这些解决方案通常费用高昂,并且没有利用允许跨越多个平台的应用程序的可移植性的开放源码技术(open source technology)。此外,通常选择费用高昂的服务器系统,希望服务器系统中的可用能力将自动提高故障转移的效率。作为一种备选方案,开放源码开发者利用当实现HA系统时,可配置的功能扩展开放源码技术。例如,Linux提供一种低廉的与平台无关的操作系统。Linux的开发者继续向该操作系统增加可由其它开发者按照开放源码方式实现的功能。这些功能中的一些,例如“心跳”和分布式复制块装置(drbd)由Linux操作系统实现,以帮助配置HA系统。虽然Linux工具提供监视故障,并配置HA系统中使用的硬件的构架,仍然需要另外的监视和配置能力。特别地,需要一种监视HA系统的硬件和软件方面的故障、错误和其它非理想状况,并且监视何时开放源码HA工具检测到故障和错误的方法。此外,需要远程积累所监视的系统状态,随后远程促进HA系统的重构。此外,通常在网络中组合多个HA系统,形成一个企业系统。每个HA系统可服务于对企业内的不同商店的交易请求。需要一种远程积累企业内的多个HA系统的所监视的系统状态,比较系统状态与性能要求,跟踪企业内的每个HA系统的硬件和软件需要。此外,当利用开放源码操作系统构架实现HA系统时,实现符合开放源码的中间件层来处理交易请求应是有利的。特别地,实现(1)由与远程企业控制台进行接口的基于开放源码的群集管理控制、并(2)能够监视和配置企业网络中的多个HA系统的符合JavaTM2平台企业版(J2EE)的中间件堆栈理应是有利的。
技术实现思路
本专利技术提供改进的高可用性群集管理,特别提供符合开放源码构架(framework)实现的高可用性系统的远程群集管理。更具体地说,本专利技术涉及企业网络中的多个高可用性系统的改进远程监视和管理。根据本专利技术的一个方面,多个高可用性系统在企业中连网,并由远程企业服务器整体管理。在每个高可用性系统内,群集管理控制器监视高可用性系统的特定组件的状态,当所述状态指示错误时,作出反应,以调整该高可用性系统。另外,就每个高可用性系统来说,监视控制器检测何时群集管理控制器对特定组件的状态作出反应,并检测该高可用性系统的多个组件的状况。监视控制器随后向远程企业服务器报告所述错误和所述组件的状况。使远程企业服务器能够根据所述报告管理高可用性系统。特别地,高可用性服务器实现由诸如心跳监视器和服务监视后台驻留程序(daemon)之类的开放源码功能监视的符合J2EE的中间件堆栈(J2EE compliant middleware stack)。具体地说,心跳监视器检测中间件堆栈驻留其上的特定服务器的状态。服务监视后台驻留程序检测中间件堆栈提供的服务的特殊实例的状态。远程企业服务器可根据报告,确定应进行配置改变,并向高可用性系统发送配置请求。监视控制器随后调整高可用性系统的配置,以调整心跳监视器或服务监视后台驻留程序将如何检测错误并对错误作出反应。此外,高可用性系统内的其它硬件和软件组件可由监视控制器重构。远程企业服务器最好把关于每个高可用性系统的监视信息保存在数据库中。另外,企业服务器最好分析监视信息,确定哪些高可用性系统不满足性能要求。企业服务器可推荐硬件和软件改变,以及配置改变。另外,企业服务器可显示比较性能,并提供高可用性系统以及在每个系统何时检测到错误的实时显示。附图说明公开了本专利技术特有的新特征。但是,结合附图,参考例证实施例的下述详细说明,将更好地理解专利技术本身,以及专利技术的优选使用模式,其它目的和优点,其中图1是描述其中可实现本专利技术的方法、系统和程序的服务器系统的方框图;图2是描述在故障转移期间,有效转移中间件的高可用性群集的硬件配置的方框图;图3是描述根据本专利技术的方法、系统和程序的群集管理器的方框图;图4是描述根据本专利技术的方法、系统和程序,在故障转移之前,HA群集的软件结构的一个实施例的方框图;图5是描述根据本专利技术的方法、系统和程序,在故障转移之后,HA群集的软件结构的一个实施例的方框图;图6是描述在HA系统中的符合J2EE的中间件内,独立软件开发商应用程序的实现的一个实施例的方框图;图7是描述把drbd分区配置到HA群集中的符合J2EE的中间件堆栈的进程和程序的高级逻辑流程图;图8是描述通过心跳控制器,控制HA群集中符合J2EE的中间件堆栈的配置和故障转移的进程和程序的高级逻辑流程图;图9是描述控制用于监视符合J2EE的中间件堆栈提供的服务的mon功能的进程和程序的高级逻辑流程图; 图10是描述根据本专利技术的方法、系统和程序,包括运行J2EE中间件堆栈的多个HA系统的企业网络的方框图;图11是描述根据本专利技术的方法、系统和程序,控制HA群集管理器内的监视控制器的进程和程序的高级逻辑流程图;图12是描述远程控制HA系统的群集管理器,从而重构HA系统的进程和程序的高级逻辑流程图;和图13是描述控制用于管理群集中的多个HA本文档来自技高网
...

【技术保护点】
一种能够实现高可用性系统的远程企业管理的系统,包括:通过网络与远程企业服务器通信连接的多个高可用性系统的一个特定高可用性系统;监视所述高可用性系统的特定组件的状态,并在所述状态指示错误时,作出反应,以调整所述高可用性系统的群集管理控制器;检测何时所述群集管理控制器对所述特定组件的所述状态作出反应,并检测所述高可用性系统的多个组件的状况的监视控制器,其中所述监视控制器向所述远程企业服务器报告所述错误和所述多个组件的状况,所述远程企业服务器能够根据所述报告管理所述高可用性系统。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:弗兰西斯科德拉克鲁兹米歇尔A波里尼道格拉斯斯科特鲁瑟特拉德哈克里什南塞图拉曼
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1