一种基于全局链路负载均衡的网络链路控制方法和系统技术方案

技术编号:19702846 阅读:27 留言:0更新日期:2018-12-08 14:20
本发明专利技术涉及一种基于全局链路负载均衡的网络链路控制方法和系统,包括:根据计算网络中所有作业的计算资源部署位置,按照分组内计算资源部署位置连续的原则划分同一作业的计算资源,得到多个分组,根据作业的通信特征,统计分组间发生通信的单位时间通信量总和,根据该单位时间通信量总和,在多个分组中筛选互连备选项;统计各个互连备选项连接后,网络中每条网络链路作为网络中所有路由路径次数,作为互连备选项间的网络负载均衡指数,将该网络负载均衡指数最大时对应的互连备选项进行互连。

【技术实现步骤摘要】
一种基于全局链路负载均衡的网络链路控制方法和系统
本专利技术涉及并行计算机互连网络,并特别涉及一种基于全局链路负载均衡的网络链路控制方法和系统。
技术介绍
高性能并行计算机的性能仍按照每四年提高10倍的速度增长,预计在2020~2022年会出现E级(Exascale)计算机,系统规模预计达到100,000节点以上。作为高性能计算机支柱技术之一的高性能互连网络,其设计是实现E级计算机性能和扩展性的关键。光电混合网络架构由于其带宽高且拓扑灵活可调整等优势,逐渐成为设计大规模超算集群和构建新型数据中心的首选架构。高性能并行计算机所承载的并行计算应用具有多样化的通信特征,从MPI通信操作的种类可以分为Collective集合通信和P2P通信两种。面向下一代E级计算的互连网络,灵活性的光电混合网络架构需要有科学的控制方法,按照当前所承载的HPC应用的通信特征,为网络的互连方法和路由方法选型提供判断的依据。目前已有的基于光电混合互连架构的互连方法,大多是基于对通信热点进行识别与判断的基础上,以热点流量为单位建立额外的互连链路,来达到加速网络的目的。主要采取的方法包括:1)根据实时性拥塞检测手段,检测出威胁网络通信性能的实时性流量,并对相应流量加以额外链路进行流量疏导;2)根据作业通信特点的先验知识,按照通信热点间对网络影响程度的强弱顺序,按序架设快速链路疏导热点流量。但是目前的这两类方法,在进行互连对象的选择时,往往仅面向当前需要互连的热点通信节点,以通信距离和通信量衡量热点。换句话说,目前的方法仅关注热点本身,而没有“客观”地观察热点之外的网络通信环境。由于新作业被任务调度部署在了不连续的网络节点,或者需要对正在运行的集群实施数据热备份,都会为网络引入多个新通信热点。本专利技术通过科研实验发现,在多个新通信热点发起通信前,通信热点间会影响网络性能的流量除了要考虑新通信热点间的通信距离和通信量外,还需要考虑除了新通信热点外的网络链路的负载情况。在进行网络链路互连对象选择时,应当优先将会最大影响网络链路负载均衡性的热点进行互连。一个超算系统会同时有多个用户使用。每个用户使用超算的方式是提交“作业”,用户会指定自己提交的作业要占用多少计算资源,各个作业被提交后,会进入任务调度器的任务队列。进入任务队列后,每个作业都会变成超算要处理的任务。
技术实现思路
本专利技术提供一种基于全局链路负载均衡的网络链路控制系统。该系统包括:通信分组互连选项生成模块、网络负载均衡指数计算模块和最佳互连选项仲裁模块。通信分组互连选项生成模块根据新作业对资源的部署位置,将物理位置不连续分布的交换节点定义为“分组”,并生成分组间可供互连的选项。网络负载均衡指数计算模块对每个分组间互连选项,计算该选项发生互连后全网所有链路的“通信权值”,得出每个互连选项对全网所有链路“通信权值”的影响。最佳互连选项仲裁模块根据计算结果,选择最佳选项进行互连,调整备选的互连选项。实施互连后,再调整备选的互连选项。具体地说,本专利技术公开了一种基于全局链路负载均衡的网络链路控制方法,其中包括:步骤1、根据计算网络中所有作业的计算资源部署位置,按照分组内计算资源部署位置连续的原则划分同一作业的计算资源,得到多个分组,根据作业的通信特征,统计分组间发生通信的单位时间通信量总和,根据该单位时间通信量总和,在多个分组中筛选互连备选项;步骤2、统计各个互连备选项连接后,网络中每条网络链路作为网络中所有路由路径次数,作为互连备选项间的网络负载均衡指数,将该网络负载均衡指数最大时对应的互连备选项进行互连。该基于全局链路负载均衡的网络链路控制方法,其中当有新作业开始在计算网络中运行,且作业所占用的服务器间开始产生网络流量,或当有正在运行的作业结束运行,且作业所占用的服务器间停止产生网络流量时,执行该步骤1。该基于全局链路负载均衡的网络链路控制方法,其中该步骤1还包括:根据分组总数N,生成0.5×N×(N-1)个分组对,对各个分组对,按照单位时间通信总和排序,将单位时间通信量总和最大的前N项作为互连备选项。该基于全局链路负载均衡的网络链路控制方法,其中该步骤2包括:步骤21、对计算网络中各条链路设置通信权值计数器,初始通信权值计数器设置为零;步骤22、按照集群中任务调度器所记录的正在运行作业列表,选取一个正在运行且未统计过的作业,遍历对该作业的交换节点;步骤23、根据作业通信特征,将交换节点间单向通信概率作为交换节点间单向路由路径的通信权值;步骤24、在互连备选项连接后,将通信权值累加到交换节点间双向路由途径的各条链路的通信权值计数器上;步骤25、对通信权值计数器的数值,作为该网络负载均衡指数。该基于全局链路负载均衡的网络链路控制方法,其中该步骤25还包括:根据每一个通信权值计数器的数值和计算系统中链路的数量,得到网络负载均衡的平均值,统计所有计数器数值中的最大值,作为网络负载均衡的最大值,集合该平均值和该最大值,作为该网络负载均衡指数。本专利技术还公开了一种基于全局链路负载均衡的网络链路控制系统,其中包括:筛选模块,用于根据计算网络中所有作业的计算资源部署位置,按照分组内计算资源部署位置连续的原则划分同一作业的计算资源,得到多个分组,根据作业的通信特征,统计分组间发生通信的单位时间通信量总和,根据该单位时间通信量总和,在多个分组中筛选互连备选项;互连模块,用于统计各个互连备选项连接后,网络中每条网络链路作为网络中所有路由路径次数,作为互连备选项间的网络负载均衡指数,将该网络负载均衡指数最大时对应的互连备选项进行互连。该基于全局链路负载均衡的网络链路控制系统,其中当有新作业开始在计算网络中运行,且作业所占用的服务器间开始产生网络流量,或当有正在运行的作业结束运行,且作业所占用的服务器间停止产生网络流量时,调用该筛选模块。该基于全局链路负载均衡的网络链路控制系统,其中该筛选模块还包括:根据分组总数N,生成0.5×N×(N-1)个分组对,对各个分组对,按照单位时间通信总和排序,将单位时间通信量总和最大的前N项作为互连备选项。该基于全局链路负载均衡的网络链路控制系统,其中该互连模块包括:对计算网络中各条链路设置通信权值计数器,初始通信权值计数器设置为零;按照集群中任务调度器所记录的正在运行作业列表,选取一个正在运行且未统计过的作业,遍历对该作业的交换节点;根据作业通信特征,将交换节点间单向通信概率作为交换节点间单向路由路径的通信权值;在互连备选项连接后,将通信权值累加到交换节点间双向路由途径的各条链路的通信权值计数器上;对通信权值计数器的数值,作为该网络负载均衡指数。该基于全局链路负载均衡的网络链路控制方法,其中该互连模块还包括:根据每一个通信权值计数器的数值和计算系统中链路的数量,得到网络负载均衡的平均值,统计所有计数器数值中的最大值,作为网络负载均衡的最大值,集合该平均值和该最大值,作为该网络负载均衡指数。由此本专利技术可快速实现对计算网络的负载均衡。附图说明图1为网络负载均衡指数计算与链路控制系统结构图;图2通信分组互连选项生成方法的流程图;图3网络负载均衡指数计算方法的流程图;图4最佳互连选项仲裁方法的流程图。具体实施方式本专利技术公开了一种基于全局链路负载均衡的网络链路控制方法,包括:步骤1、根本文档来自技高网
...

【技术保护点】
1.一种基于全局链路负载均衡的网络链路控制方法,其特征在于,包括:步骤1、根据计算网络中所有作业的计算资源部署位置,按照分组内计算资源部署位置连续的原则划分同一作业的计算资源,得到多个分组,根据作业的通信特征,统计分组间发生通信的单位时间通信量总和,根据该单位时间通信量总和,在多个分组中筛选互连备选项;步骤2、统计各个互连备选项连接后,网络中每条网络链路作为网络中所有路由路径次数,作为互连备选项间的网络负载均衡指数,将该网络负载均衡指数最大时对应的互连备选项进行互连。

【技术特征摘要】
1.一种基于全局链路负载均衡的网络链路控制方法,其特征在于,包括:步骤1、根据计算网络中所有作业的计算资源部署位置,按照分组内计算资源部署位置连续的原则划分同一作业的计算资源,得到多个分组,根据作业的通信特征,统计分组间发生通信的单位时间通信量总和,根据该单位时间通信量总和,在多个分组中筛选互连备选项;步骤2、统计各个互连备选项连接后,网络中每条网络链路作为网络中所有路由路径次数,作为互连备选项间的网络负载均衡指数,将该网络负载均衡指数最大时对应的互连备选项进行互连。2.如权利要求1所述的基于全局链路负载均衡的网络链路控制方法,其特征在于,当有新作业开始在计算网络中运行,且作业所占用的服务器间开始产生网络流量,或当有正在运行的作业结束运行,且作业所占用的服务器间停止产生网络流量时,执行该步骤1。3.如权利要求1所述的基于全局链路负载均衡的网络链路控制方法,其特征在于,该步骤1还包括:根据分组总数N,生成0.5×N×(N-1)个分组对,对各个分组对,按照单位时间通信总和排序,将单位时间通信量总和最大的前N项作为互连备选项。4.如权利要求1所述的基于全局链路负载均衡的网络链路控制方法,其特征在于,该步骤2包括:步骤21、对计算网络中各条链路设置通信权值计数器,初始通信权值计数器设置为零;步骤22、按照集群中任务调度器所记录的正在运行作业列表,选取一个正在运行且未统计过的作业,遍历对该作业的交换节点;步骤23、根据作业通信特征,将交换节点间单向通信概率作为交换节点间单向路由路径的通信权值;步骤24、在互连备选项连接后,将通信权值累加到交换节点间双向路由途径的各条链路的通信权值计数器上;步骤25、对通信权值计数器的数值,作为该网络负载均衡指数。5.如权利要求4所述的基于全局链路负载均衡的网络链路控制方法,其特征在于,该步骤25还包括:根据每一个通信权值计数器的数值和计算系统中链路的数量,得到网络负载均衡的平均值,统计所有计数器数值中的最大值,作为网络负载均衡的最大值,集合该平均值和该最大值,作为该网...

【专利技术属性】
技术研发人员:邵恩张鹏王展元国军谭光明孙凝晖安学军
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1