当前位置: 首页 > 专利查询>微软公司专利>正文

针对数据中心环境优化的通信输送制造技术

技术编号:7938286 阅读:201 留言:0更新日期:2012-11-01 20:03
用于计算机网络中拥塞控制的方法和设备通过浅缓冲的交换机来实现高突发容忍度、低等待时间和高吞吐量。一种用于控制拥塞的方法包括:在网络连接上,将一组数据分组从第一计算设备传送到第二计算设备;识别该组数据分组中的在该网络连接上经历了拥塞的每个数据分组;由第二计算设备将代表该组数据分组中被识别为经历过拥塞的数据分组的数量的比特序列发送到第一计算设备;以及基于发送到第一计算设备的所述比特序列,调整在所述网络连接上传送数据分组的速率。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及在计算机网络中的拥塞控制,以及更特别地,涉及用于在数据中心环境中控制拥塞的方法和设备。然而,本专利技术不限于在数据中心环境中使用。
技术介绍
数据中心可以包括通过高速交换机互连的几百或几千个服务器。云数据中心宿有多种多样的应用,在同一网络中混合许多需要小的可预测的等待时间的工作流与其它需要大的持续的吞吐量的工作流。近些年,随着企业IT大规模地整合到数据中心枢纽(hub)中以及云计算服务提供者的出现,数据中心已经使计算发生转变。数据中心设计中一贯的主旨(theme)是使用低成本商品组件来构造高可用性的、高性能的计算和存储基础设施。特 别地,低成本的交换机是常见的,其以低于$2000的价格提供多达48个IGbps的端口。若干新近的研究提案设想使用在这样的商品交换机上构造的新颖的体系结构来创建经济的、易于管理的数据中心。这些提案是否现实在很大程度上取决于这些商品交换机能多好地应付实际数据中心应用的通信量。已经发现,诸如web搜索、零售、广告和推荐系统这样的、已驱动许多数据中心建设的软实时应用生成短流和长流的多种多样的混合。这些应用要求来自数据中心网络的如下项针对短流的低等待时间、高突发容忍度和针对长流的高利用率。头两个要求源于这些应用中的许多应用所使用的分割/聚合(partition/aggregate)工作流模式(pattern)。针对最终结果的软实时截止时间转换为针对工作流中的一个个任务的等待时间目标。这些等待时间目标从大约IOms变化到大约100ms,并且在它们的截止时间前未完成的任务被取消,由此不利地影响了最终的结果。因此,针对低等待 时间的应用要求直接地影响到返回的结果的质量并因此影响到了收益。降低网络等待时间允许应用开发者将更多的周期移转给用于改进相关性和最终用户体验的算法。第三个要求(针对大流的高利用率)源于对连续不断地更新这些应用的内部数据结构的需要,因为该数据的新鲜度也影响到结果的质量。因此,针对更新数据的长流的高吞吐量与低等待时间和突发容忍度一样是必需的。在这种环境中,今天的技术发展水平的TCP协议还达不到要求。因此,需要改进的方法和设备用于在诸如数据中心这样的计算机网络中进行有效的分组输送。
技术实现思路
本专利技术提供了用于拥塞控制的方法和设备,其通过浅缓冲的(shallow-buffered)交换机实现了高突发容忍度、低等待时间和高吞吐量。为了满足短流和长流的多种多样的混合的要求,交换机缓冲器被维持以小的队列占用,与此同时针对长流维持高的吞吐量。这些目标主要通过基于拥塞的程度对拥塞做出反应而实现。拥塞控制算法在交换机上使用标记方案,该标记方案是只要缓冲器占用超过某个小的固定的门限,就在传送的数据分组中设置标记比特。发送器通过按取决于被标记分组的分率(fraction)的因子(factor)来降低传送数据分组的速率而进行响应。该分率越大,传输速率的减少越大。可以通过调整传输窗口的长度来控制传输速率。发送器从一组被传送分组的每个分组中的单比特的标记信息中导出多比特反馈。按照本专利技术的第一方面,提供了一种用于控制在第一计算设备和第二计算设备间的网络连接上的拥塞的方法。所述方法包括在网络连接上,将一组数据分组从第一计算设备传送到第二计算设备;识别该组数据分组中的在该网络连接上经历了拥塞的每个数据分组;由第二计算设备将代表该组数据分组中被识别为经历过拥塞的数据分组的数量的比特序列发送到第一计算设备;以及基于发送到第一计算设备的所述比特序列,调整在该网络连接上传送数据分组的速率。按照本专利技术的第二方面,提供了一种用于控制在第一计算设备和第二计算设备间的网络连接上的拥塞的方法。该方法包括在网络连接上,由第一计算设备将一组数据分组传送到第二计算设备;如果该网络连接上的设备中的队列大小超过预定的单值门限K,则 标记该组被传送的数据分组中的数据分组;在第一计算设备上接收识别该组被传送的数据分组中的被标记数据分组的信息;在第一计算设备上基于该组数据分组中被识别为已标记的数据分组来估计网络连接上的拥塞的量度(measure);以及由第一计算设备基于估计的拥塞的量度来调整在该网络连接上传送数据分组的速率。按照本专利技术的第三方面,提供了一种用于控制在第一计算设备和第二计算设备间的网络连接上的拥塞的方法。该方法包括在网络连接上,将一组数据分组从第一计算设备传送到第二计算设备;如果该网络连接上的设备中的队列大小超过预定的单值门限K,则标记该组被传送的数据分组中的数据分组;由第二计算设备将代表该组数据分组中被标记的数据分组的数量的比特序列发送到第一计算设备;通过基于所述比特序列确定该组被传送的数据分组中被标记数据分组的分率,来估计网络连接上的拥塞的量度;基于该组被传送的数据分组中被标记数据分组的分率来调整在该网络连接上传送数据分组的速率;以及针对每组被传送的数据分组来更新所估计的该网络连接上的拥塞的量度。附图说明在图中 图I是图示分割/聚合工作流模式的示意 图2是图示在连接到聚合器的交换机上的incast (入播)拥塞的框 图3是依照本专利技术的实施例的、包括向接收器传送数据分组的发送器的计算机网络的框 图4图示了依照本专利技术的实施例的拥塞控制算法; 图5图示了由依照本专利技术的实施例的交换机进行的数据分组的标记; 图6是图示依照本专利技术的实施例的拥塞控制算法的操作的流程 图7是在延迟确认的情形下控制ACK分组中的拥塞比特的设置的状态 图8是使用依照本专利技术的实施例的拥塞控制算法和常规的TCP的、在交换机上作为时间的函数的即时队列长度的标绘 图9是图示依照本专利技术的实施例的拥塞控制算法的操作和常规TCP的操作的例子的表;和图10是一般性地图示在其中可以实施本专利技术的计算机系统的例子的框图。具体实施例方式图I中所示的分割/聚合工作流模式是在数据中心中执行的许多大型web应用的基础。所述分割/聚合工作流模式包括最高级别聚合器100、连接到最高级别聚合器100的较低级别聚合器110和连接到各自的较低级别聚合器110的工作者(worker) 120。聚合器100和110、以及工作者120可各自被实施为 服务器。工作流模式可以利用任意数量的级别。由最高级别聚合器100接收请求。来自应用的较高层的请求被分成片断,并被分派给较低级别中的工作者。工作者的响应被聚合以产生结果。Web搜索、社交网络内容组成和广告选择可以是基于这种工作流模式的。对于诸如这些的交互式的软实时应用来说,等待时间是关键的度量(metric ),总的可允许的等待时间例如由顾客影响研究来确定。在减去典型的因特网和再现延迟后,应用的后端部分典型地被分配在230-300 ms之间。许多应用具有多层分割/聚合工作流模式,在一层上的滞后延迟了其它层的启动。此外,对请求的响应可能要求迭代地调用该工作流模式,使某个聚合器对下面的工作者做出一系列请求以便准备响应。例如,在web搜索中,可以发送查询到许多聚合器和工作者,它们中的每个负责索引的不同部分。基于答复,聚合器可以提炼查询并发送所提炼的查询来改进结果的相关性。分割/聚合工作流的滞后实例因此会合起来危及查询的总的等待时间。为了防止总的等待时间被违反,工作者节点典型地被分派严格的截止时间,通常大约为10-100 m本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:MA阿塔M斯里哈兰B普拉巴卡DA马尔茨JD帕赫耶AG格林伯格PK帕特尔
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1