当前位置: 首页 > 专利查询>辉达公司专利>正文

负载平衡联网环境中的智能故障恢复制造技术

技术编号:3544895 阅读:186 留言:0更新日期:2012-04-11 18:40
本发明专利技术的一个实施例阐述一种用于将网络连接故障恢复到计算装置内的网络接口卡(NIC)的方法。所述方法包含以下步骤:监视所述计算装置内的出现故障的或不可靠的NIC;确定所述出现故障的或不可靠的NIC已恢复;确定所述计算装置内的起作用的NIC过载;选择通过所述过载的NIC传送的第一连接组;以及将所述第一连接组转移到所述已恢复的NIC。通过此方法,可有利地基于所述过载的NIC和所述已恢复的NIC上的业务负载而关于是否将网络连接组故障恢复到已恢复的NIC智能地作出决定。这种在计算装置内的所述起作用的NIC间平衡网络业务的方法可相对于现有技术显著改进整体性能。

【技术实现步骤摘要】

本专利技术的实施例大体上涉及网络通信,且更具体来说涉及一种在负载平衡的联网环境中对网络连接智能地进行故障恢复的系统和方法。
技术介绍
性能和可靠性是对于现代计算机网络的关键要求。当网络接口卡(“NIC”)出现故障或变得不可靠并接着返回到完全起作用的状态时,计算装置可能会通过将网络连接重新分配给现在起作用的NIC来实现改进的网络性能。更具体来说,如果计算装置中的特定NIC过载或变得过载,那么可通过在计算装置中的起作用的NIC(包含恢复后的NIC)之间重新分配网络连接来改进网络性能。然而,将连接从一个NIC转移到另一个NIC所涉及的额外开销可能会超过在计算装置内的起作用的NIC间重新分配业务所带来的性能益处。在此种情况下,可能会因为试图重新分配网络连接而降低整体联网性能。此外,所转移的连接可能会使有效操作的NIC过载,从而降低所述NIC的性能和可靠性。如上文所说明,此项技术中需要一种用于在对网络连接进行故障恢复时将网络连接转移到计算装置中的一个或一个以上起作用的NIC的技术,其减少NIC负载或其它可能损害整体系统性能的现象的可能性。
技术实现思路
本专利技术的一个实施例阐述一种用于将网络连接故障恢复到计算装置内的网络接口卡(NIC)的方法。所述方法包含以下步骤:监视计算装置内的出现故障的或不可靠的NIC;确定所述出现故障的或不可靠的NIC已恢复;确定所述计算装置内的起作用的NIC过载;选择通过所述过载的NIC传送的第一连接组;以及将所述第一连接组转移到所述已恢复的NIC。所揭示的方法的一个优点在于,通过对过载的NIC上的连接组进行再散列(rehashing),可基于过载NIC和已恢复NIC上的业务负载来决定是否将网络连接组故障恢复到已恢复的NIC。这种在计算装置内的起作用的NIC间平衡网络业务的方法可相对于现有技术实质上改进整体性能。-->附图说明为了可更详细了解本专利技术的上述特征,可参考实施例对上文简要概述的本专利技术进行更具体的描述,所述实施例中的一些实施例在附图中说明。然而,应注意,附图只说明本专利技术的典型实施例,且因此不应被视为限制本专利技术的范围,因为本专利技术可承认其它同等有效的实施例。图1A到图1C说明其中可实施本专利技术的一个或一个以上方面的计算装置;以及图2A到图2D说明根据本专利技术一个实施例用于将网络连接从过载的NIC恢复到计算装置中的一个或一个以上起作用的NIC的方法步骤的流程图。具体实施方式可通过使用以下元件来实现将网络连接从过载的NIC智能地故障恢复到一个或一个以上完全起作用的NIC:跟踪网络统计资料的散列引擎,所述网络统计资料包含连接的数目以及通过每个NIC传输和接收的业务的量;以及跟踪每个网络连接初始借以传送的NIC的TCP/IP堆栈。一旦出现故障或不可靠的NIC再次恢复成完全起作用地操作,如果系统内的另一NIC变得过载,便将过载的NIC上的一些网络连接自动故障恢复到已恢复的NIC,直到先前过载的NIC不再过载为止。此转移允许由替代的NIC来处理一个或一个以上额外的网络连接而不会超出所述NIC的能力,因而避免可能会降低计算装置的整体性能的连接重新分配范例。从过载的NIC转移连接可能还包含从过载的NIC内的硬件卸载引擎去卸载连接,并随后将所述连接卸载到所述连接被转移到的已恢复的NIC内的硬件卸载引擎。图1A到图1C说明可实施本专利技术的一个或一个以上方面的计算装置100。如图所示,计算装置100包含主存储器102、存储器控制器104、微处理器106、I/O控制器108以及NIC 110、111和116。NIC 110包含多播列表114和硬件卸载引擎(“HOE”)112。NIC 111包含多播列表115和HOE 113。NIC 116包含多播列表120和HOE 118。HOE 112、113和118包含经配置以用于处理和计算装置100与已经被选择性地卸载到NIC 110、111和116的一个或一个以上远程网络计算装置(未图示)之间的网络连接相关联的网络帧的逻辑。与常规做法一样,通过用HOE 112、113和118来处理网络帧(有时称为“在硬件中处理连接”),而不是在主机软件TCP/IP堆栈中执行那些处理功能(有时称为“在软件中处理连接”),可实质上减少NIC 110、111和116与微处理器106之间的传送以及由微处理器106执行的计算。-->存储器控制器104耦接到主存储器102,且耦接到微处理器106,且I/O控制器108耦接到微处理器106以及NIC 110、111和116。在本专利技术的一个实施例中,微处理器106通过将命令或数据写入到I/O控制器108中来向NIC 110、111和116传输命令或数据。一旦此类命令或数据被写入到I/O控制器108中,I/O控制器108就视情况将所述命令或数据转译成目标NIC可理解的格式,并将所述命令或数据传送到所述目标NIC。类似地,NIC 110、111和116通过将命令或数据写入到I/O控制器108中来向微处理器106传输命令或数据,且I/O控制器108视情况将所述命令或数据转译成微处理器106可理解的格式,并将所述命令或数据传送到微处理器106。前面提及的耦接可实施为存储器总线或I/O总线,例如PCITM总线或其任一组合,或者另外可以任何其它技术上可行的方式来实施。如图1B中更详细展示,主存储器102包含操作系统122和软件驱动程序124。软件驱动程序124包含负载平衡和故障转移(“LBFO”)模块126和TCP/IP堆栈130。LBFO模块126跟踪每个NIC的联网统计资料(例如,每个NIC上的连接的数目,每个NIC发送和接收的包的数目),且在网络连接在计算装置100内从一个NIC移动到另一NIC时与TCP/IP堆栈130通信。LBFO模块126包含散列引擎128,其基于前面提及的联网统计资料来智能地确定应如何在计算装置100中的不同的起作用的NIC上分配网络连接。关于散列引擎128的功能性的更多细节在2007年5月18申请的、序列号为______且代理人案号为NVDA/P001883的题为“网络业务的智能负载平衡和故障转移”(“Intelligent Load Balancing and Failover of Network Traffic”)的相关美国专利申请案中描述。此相关专利申请案在此以引用的方式并入本文中。如图1C中更详细展示,散列引擎128包含传输散列表138和接收散列表140。传输散列表138的用途是基于由LBFO模块126向传输散列表138提供的数据,在计算装置100内选择用于传输与网络连接有关的包的起作用的NIC。传输散列表138包含多个散列表条目(例如,散列表条目134)和软件散列函数(未图示)。另外,每个散列表条目包含表索引(例如,表索引132)和表值(例如,表值136)。LBFO模块126引导散列引擎128通过将TCP/IP连接数据传送到散列引擎128来在计算装置100内选择传输NIC,所述散列引擎128将TCP/IP连接数据传送到传输散列表138中的软件散列函数。作为响应,软件散列函数基于所述TCP/IP连接数据的值而在传输散列表138内选择表索引。从这个选定的表索引中,传输散列表138识别相应本文档来自技高网...

【技术保护点】
一种用于将网络连接故障恢复到计算装置内的网络接口卡(NIC)的方法,所述方法包括: 监视所述计算装置内的出现故障或不可靠的NIC; 确定所述出现故障或不可靠的NIC已经恢复; 确定所述计算装置内起作用的NIC过载; 选择通过所述过载NIC传送的第一连接组;以及 将所述第一连接组转移到所述已恢复的NIC。

【技术特征摘要】
US 2007-5-18 11/750,9141.一种用于将网络连接故障恢复到计算装置内的网络接口卡(NIC)的方法,所述方法包括:监视所述计算装置内的出现故障或不可靠的NIC;确定所述出现故障或不可靠的NIC已经恢复;确定所述计算装置内起作用的NIC过载;选择通过所述过载NIC传送的第一连接组;以及将所述第一连接组转移到所述已恢复的NIC。2.根据权利要求1所述的方法,其中所述转移所述第一连接的步骤包括通过所述已恢复的NIC向网络交换机传输获知包的步骤。3.根据权利要求2所述的方法,其中初始通过所述已恢复的NIC传送所述第一连接组,且所述转移所述第一连接组的步骤进一步包括从与所述过载的NIC相关联的多播中移除所述已恢复的NIC的媒体接入控制(MAC)地址的步骤。4.根据权利要求3所述的方法,其进一步包括将所述第一连接组卸载到与所述已恢复的NIC相关联的硬件卸载引擎的步骤。5.根据权利要求2所述的方法,其中初始不是通过所述已恢复的NIC传送所述第一连接组,且所述转移所述第一连接组的步骤进一步包括从与所述过载NIC相关联的多播列表中移除初始用以传送所述第一连接组的NIC的MAC地址的步骤。6.一种计算机可读媒体,其所存储的指令在由处理器执行时致使所述处理器通过执行以下步骤将网络连接故障恢复到计算装置内的网络接口卡(NIC):监视所述计算装置内的出现...

【专利技术属性】
技术研发人员:阿亚兹阿卜杜拉诺曼K陈阿南德拉贾戈帕兰阿舒托什K杰哈赫马马利尼马尼克瓦萨甘萨米尔南达
申请(专利权)人:辉达公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1