数据中心网络中TCP共流的调度方法和装置制造方法及图纸

技术编号:13466073 阅读:15 留言:0更新日期:2016-08-04 20:29
本发明专利技术公开了一种数据中心网络中TCP共流的调度方法和装置。该方法包括:发送端根据共流初始信息生成每个待调度共流的初始优先级,并向待调度共流的每个TCP流对应的接收端发送第一调度数据包;在检测到待调度共流被服务时,根据生成待调度共流的共流优先级;根据与发送端关联的发送端剩余的TCP流的数据量每个TCP流的内部优先级;根据与发送端关联的发送端剩余的TCP流量和发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率;由交换机根据共流优先级、内部优先级和期望速率对TCP流分配速率,以使发送端根据交换机分配的速率对TCP流进行调度。本发明专利技术采用共流间和共流内两项调度协调工作,能有效的减少CCT、降低系统开销。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种数据中心网络中TCP共流的调度方法和装置。该方法包括:发送端根据共流初始信息生成每个待调度共流的初始优先级,并向待调度共流的每个TCP流对应的接收端发送第一调度数据包;在检测到待调度共流被服务时,根据生成待调度共流的共流优先级;根据与发送端关联的发送端剩余的TCP流的数据量每个TCP流的内部优先级;根据与发送端关联的发送端剩余的TCP流量和发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率;由交换机根据共流优先级、内部优先级和期望速率对TCP流分配速率,以使发送端根据交换机分配的速率对TCP流进行调度。本专利技术采用共流间和共流内两项调度协调工作,能有效的减少CCT、降低系统开销。【专利说明】数据中心网络中TCP共流的调度方法和装置
本专利技术设及,具体设及一种数据中屯、网络中TCP共流的调度方法和装置。
技术介绍
数据中屯、网络支撑着多种分布式计算和存储框架(比如,MapReduce ,Spark和 皿FS)。在运些框架中,存在着若干W shuffle ,aggregation和broadcast等形式出现的并行 数据传递过程。运些并行数据传递过程显著地影响着分布式框架的性能。通常而言,一个并 行数据传递过程包含若干个并行的TCP流。一个过程能够被完成当且仅当它里面的所有TCP 流都完成了数据传递。一个并行数据传递过程中的所有TCP流被抽象为一个共流(coflow)。 最近的研究表明减少共流的完成时间(Cof 1OW Comp 1 etion Time,CCT)能大大地提高分布 式框架的性能。 已有提高CCT性能(减少CCT)的工作都集中在共流的调度上。典型的共流调度方法 可W分为两类:集中式调度和分布式调度。集中式调度方法的代表为Varys。在Varys中,一 个集中式控制器会实时地收集网络和共流的相关信息,并根据SEBF(Smallest Effective Bottleneck First)的策略为所有的共流计算和指派调度信息。分布式调度方法的代表为 Baraat和D-CAS。分布式调度方法Baraat采用FIFO-LM化irst In First Out with Limited Multiplexing)策略。该策略一方面W先进先出的方式处理共流,另一方面,当它检测到高 优先级的共流已经被传输了较多数据的时候,它会动态地更改复用的级别让优先级低的共 流能够被服务。D-CASW分布式的形式把SEBF简化为子共流级别的化-11^(5加(3〇'1〇讯-Level Minimum Remaining Time First)策略。虽然运些方法都能提高CCT性能,然而它们 都存在着不同的性能瓶颈,比如:系统开销大,队头阻塞,共流语义利用率低,带宽利用率不 足等等。 对于WVarys为代表的集中式调度方法,虽然能够取得很好的性能,它的系统开销 却是一个很大的问题,尤其是当网络规模变得较大的时候。Varys的控制器在收集信息,计 算调度结果和下发控制信息运些方面都存在着极其严重的额外开销。在化rys中,平均一次 的调度开销就高达30毫秒。考虑到数据中屯、网络中的传播时延仅仅只有数百微妙,运么大 的开销在实际网络中是难W忍受的。 分布式调度方法Baraat,有两个主要的缺点。首先运个基于先进先出的方法严重 地依赖共流的到达顺序。所W该方法在共流到达顺序差别很大的时候,它的性能是极其不 稳定的。其次,当Baraat的复用级别提高之后,它的性能甚至会退化为基于流的公平性调度 策略。而运种调度策略是完全无法优化CCT性能的。对于D-CAS,也有两个主要的缺点。首先, D-CAS在获取共流优先级信息的时候并没有充分使用共流的语义。特别地,D-CAS中用于计 算优先级的子共流运个概念仅仅是共流的一个很小的部分。用子共流来进行优先级的设 置,很有可能会给一个本来优先级不用太高的共流分配一个大很多的优先级,而真正需要 被优先服务的共流却只能获得较小的优先级。其次,D-CAS很容易浪费接收端处的链路资 源。 此外,已有的调度策略都无区别地对待同一个共流的中的所有TCP流。然而共流中 的不同流是存在着优先级差异的,运样的调度会一定程度上损害CCT性能。
技术实现思路
针对现有技术中的缺陷,本专利技术提供了一种一种数据中屯、网络中TCP共流的调度 方法和装置,用于解决现有TCP共流调度CCT长、系统开销大的问题。[000引本专利技术提出了 一种数据中屯、网络中TCP共流的调度方法,包括: 共流控制器将至少一个待调度共流的初始信息通告至发送端和接收端; 被通告发送端在接收到所述初始信息时,根据所述初始信息生成每个待调度共流 的初始优先级,并向所述待调度共流的每个TCP流对应的接收端发送第一调度数据包; 在检测到所述待调度共流被服务且接收到所述接收端反馈的调度AO(时,根据所 述调度ACK中携带的第一剩余数据生成所述待调度共流的共流优先级,所述第一剩余数据 为与所述发送端关联的发送端剩余的TCP流量; 根据所述调度ACK中携带的第二剩余数据生成所述待调度共流的每个TCP流的内 部优先级,所述第二剩余数据为与所述发送端关联的发送端剩余的所述TCP流的数据量; 根据所述第一剩余数据量和所述发送端剩余的每个TCP流的数据量生成每个TCP 流的期望速率; 通过第二调度数据包将所述共流优先级、所述内部优先级和所述期望速率发送至 交换机; 交换机对所述第二调度数据包中的TCP流进行速率分配,并通过接收端的调度ACK 将分配的速率发送至所述发送端,W使所述发送端根据交换机分配的速率对TCP流进行调 度。 优选地,所述初始信息包括:初始瓶颈; 所述初始瓶颈包括:所有发送端的初始剩余TCP流量中的最大值; 相应地,所述根据所述初始信息生成每个待调度共流的初始优先级的步骤具体包 括: 根据所述最大的初始剩余TCP流量生成每个待调度共流的初始优先级。 优选地,所述初始信息还包括:初始流量信息; 相应地,所述将至少一个待调度共流的初始信息通告至发送端和接收端的步骤具 体包括: 将所述初始瓶颈发送至所有发送端; 向每个发送端发送与所述发送端存在关联关系的节点的初始流量信息; 或,向每个接收端发送与所述接收端存在关联关系的节点的初始流量信息; 其中,所述节点为发送端或者接收端。 优选地,在所述将至少一个待调度共流的初始信息通告至发送端和接收端的步骤 之前,该方法还包括: 共流控制器从第一记录表中获取每个节点与其余节点的关联关系,W及每个节点 的ID; 相应地,所述将至少一个待调度共流的初始信息通告至发送端和接收端的步骤具 体包括: 根据所述关联关系,向每个节点发送与该节点存在关联关系的节点的初始流量信 息。 优选地,所述根据所述调度ACK中携带的第一剩余数据生成所述待调度共流的共 流优先级的步骤具体包括: 根据所述第一剩余数据获取与该发送端关联的发送端剩余的TCP流量中的最大 值; 根据公式一,结合所述剩余的TCP流量中的最大值生成所述待调度共流的共流优 先级;公式一 其中,priority为共流优先级,QS为与该发送端关联的发送端剩余的TCP流量中的 最大值,4为可扩展口限值,N*为经验性的参数,passTime本文档来自技高网
...

【技术保护点】
一种数据中心网络中TCP共流的调度方法,其特征在于,包括:共流控制器将至少一个待调度共流的初始信息通告至发送端和接收端;被通告发送端在接收到所述初始信息时,根据所述初始信息生成每个待调度共流的初始优先级,并向所述待调度共流的每个TCP流对应的接收端发送第一调度数据包;在检测到所述待调度共流被服务且接收到所述接收端反馈的调度ACK时,根据所述调度ACK中携带的第一剩余数据生成所述待调度共流的共流优先级,所述第一剩余数据为与所述发送端关联的发送端剩余的TCP流量;根据所述调度ACK中携带的第二剩余数据生成所述待调度共流的每个TCP流的内部优先级,所述第二剩余数据为与所述发送端关联的发送端剩余的所述TCP流的数据量;根据所述第一剩余数据量和所述发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率;通过第二调度数据包将所述共流优先级、所述内部优先级和所述期望速率发送至交换机;交换机对所述第二调度数据包中的TCP流进行速率分配,并通过接收端的调度ACK将分配的速率发送至所述发送端,以使所述发送端根据交换机分配的速率对TCP流进行调度。

【技术特征摘要】

【专利技术属性】
技术研发人员:张舒黎张棪孙继燕曹玖玥陈鑫
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1