一种基于作业部署信息的链路互连方法和系统技术方案

技术编号:19866087 阅读:29 留言:0更新日期:2018-12-22 13:50
本发明专利技术涉及一种基于作业部署信息的链路互连方法和系统,包括:获取待运行的作业,为当前作业的分配多个计算节点,获取与计算节点相连的交换节点间的通信概率总和,以及交换节点间的路由路径经过除当前作业以外的其余作业的路由路径数量,根据通信概率总和、路由路径数量,得到多个交换节点间的加权距离;根据多个计算节点的计算资源是否连续,将交换节点间最大加权距离对应的交换节点进行互连。由此本发明专利技术解决由于作业部署问题所带来的远距离热点通信问题,对影响网络性能的通信热点准确进行识别,避免对作业与作业间无关交换节点的计算,能更快速地得到互连结果。

【技术实现步骤摘要】
一种基于作业部署信息的链路互连方法和系统
本专利技术涉及并行计算机互连网络,特别涉及一种基于作业部署信息的通信热点识别与链路互连方法和系统。
技术介绍
近年来高性能并行计算机的性能仍按照每四年提高10倍的速度增长,预计在2020~2022年会出现E级(Exascale)计算机,系统规模预计达到100,000节点以上。作为高性能计算机支柱技术之一的高性能互连网络,其设计是实现E级计算机性能和扩展性的关键。类比于Internet的局部网和骨干网,当计算机系统达到一定规模时,在其互连网络之上架设高速“骨干网”成为必要,在数据中心领域,已经研究提出了增加快速通路(shortcutpath)来弥补全局通信性能,在直接网络中使用该技术也是未来趋势。光互连技术的发展为E级网络设计提供了新的思路。表1:快速通路介质通路带宽局域子网间连通度电辅助链路中静态点对点(固定)无线网络低全连接(动态灵活)光辅助网络高全连接(动态灵活)目前快速通路的研究可分为电链路、无线网络和光网络三类。从表1中可以看出,光网络可为任意子网间提供高带宽的快速通路,拥有最优的性能和灵活性。由于光还具有低误码率和低功耗的特点,光电混合网络(Electrical/opticalHybridSwitchingNetwork)吸引了越来越多的研究。光电混合网络已经应用于各大数据中心并得到了部署,它针对数据中心距离传输近和硬件系统更新周期短的特点,简化了光器件设计(传统光器件面向骨干网40km以上传输距离设计),大幅降低了基于波分复用(WDM)光互连系统的功耗和成本。目前数据中心对热点流量判断和互连快速链路的方法中,常用的方法主要包括两种:1)针对特定业务特征和流量行为,如虚拟器迁移和数据热备份业务,在明确网络通信流量较多的节点情况下,在通信热点间铺设快速链路。2)在通信软件层次增加实时通信流量预警模块,在通信流量即将发生时产生通知信号报告给网络控制器,网络控制器根据其收集的流量预警信息安排快速链路的互连。流量的预警信息并不是通信流量,网络的设计者会在网络交换设备中设置通信流量缓冲的队列中设置监控通信流量的“传感器”。监控流量大小的“传感器”会针对通信流量在交换设备的缓冲情况(缓冲占用情况,如空,满信息),发出具有实时性的“流量预警信息”。但是现有技术中对快速链路的建立和架设过程,不具有快速,自动地对造成网络拥塞主要通信流量进行识别的能力。超算的作业与作业之间,彼此独立且具有通信无关性。目前针对运距离热点的互连方法,没有考虑作业部署信息,需要计算与作业无关的大量信息,十分耗时。无论网络中负载哪种流量,造成网络性能下降和抑制整体通信能力的源头是——在作业部署的网络范围内,需要远距离传输且通信量较大的点对点通信流量。一个超算系统会同时有多个用户使用。每个用户使用超算的方式是提交“作业”,用户会指定自己提交的作业要占用多少计算资源,各个作业被提交后,会进入任务调度器的任务队列。进入任务队列后,每个作业都会变成超算要处理的任务。
技术实现思路
为了解决上述技术问题,本专利技术目的在于提供一种基于作业部署信息面向链路互连可配置网络,需要远距离传输且通信量较大的通信流量的自动设别和网络链路控制方法。该系统包含作业相关的通信加权距离计算模块,通信热点分组间加权排序模块,基于“加权距离”的互连裁决模块。作业相关的通信加权距离计算模块会根据当前作业在网络中的资源部署位置,计算所相关的网络交换节点间路由跳步数,再结合作业在各个计算节点上所运行进程的通信概率特征,计算作业相关网络交换节点间的“加权距离”。通信热点分组间加权排序模块首先按照当前作业的资源部署位置,对资源不连续的节点划分节点分组,再根据分组间加权距离,对分组间“加权距离”进行排序,组成排序队列。基于“加权距离”的互连裁决模块会将具有最大“加权距离”的分组对进行等位互连并更新排序队列,当存在多项分组间加权等距情况时,将具有最多节点个数的分组所在的分组对进行等位互连。具体地说,本专利技术公开了一种基于作业部署信息的链路互连方法,其中包括:步骤1、计算系统获取待运行的作业,作为当前作业,根据该当前作业的资源部署信息,为该当前作业的分配多个计算节点,获取与该计算节点相连的交换节点间的通信概率总和,以及交换节点间的路由路径经过除该当前作业以外的其余作业的路由路径数量,根据该通信概率总和、该路由路径数量,得到多个该交换节点间的加权距离;步骤2、判断该多个计算节点的计算资源是否连续,若计算资源连续,则执行步骤3,否则执行步骤4;步骤3、将交换节点间最大加权距离对应的交换节点进行互连;步骤4、对该多个计算节点按照同一分组内计算资源连续的原则,进行分组,根据每一个交换节点在分组中的隶属情况,找到交换节点分别属于两个分组的节点对,通过对分组间节点对的加权距离进行排序,得到分组间排序队列,将该排序队列中最大加权距离对应的交换节点进行互连。该基于作业部署信息的链路互连方法,其中通过下式得到该加权距离:Dist(x,y)=P(x→y)×Hop(x→y)+P(y→x)×Hop(y→x)其中Dist(x,y)表示交换节点x和交换节点y之间的加权距离,P(x→y)表示当前作业连接在交换节点x上的计算节点向连接在交换节点y上的计算节点的通信概率,P(y→x)是前作业连接在交换节点y上的计算节点向连接在交换节点x上的计算节点的通信概率;Hop(x→y)是从交换节点x到交换节点y的路由路径经过除当前作业以外的其他作业占有的路由路径数,Hop(y→x)是从交换节点y到交换节点x的路由路径经过除当前作业以外的其他作业占有的路由路径数。该基于作业部署信息的链路互连方法,其中通过下式得到Hop(x→y):为路由路径上,标号为i的作业所占有的ni个交换节点间出现两两单向通信流量的数量和分组间节点对的数量,m为计算系统执行的作业总量。该基于作业部署信息的链路互连方法,其中该步骤4包括:若该排序队列中存在多个最大加权距离,则将具有最多交换节点个数的分组所在的节点对进行互连。该基于作业部署信息的链路互连方法,其中该步骤1还包括,对该当前作业内调用通信函数,按照通信发送进程对通信接收进程的通信数量占该发送进程通信数据量的比例求得通信概率。本专利技术还公开了一种基于作业部署信息的链路互连系统,其中包括:加权距离计算模块,用于计算系统获取待运行的作业,作为当前作业,根据该当前作业的资源部署信息,为该当前作业的分配多个计算节点,获取与该计算节点相连的交换节点间的通信概率总和,以及交换节点间的路由路径经过除该当前作业以外的其余作业的路由路径数量,根据该通信概率总和、该路由路径数量,得到多个该交换节点间的加权距离;判断模块,用于判断该多个计算节点的计算资源是否连续,若计算资源连续,则调用第一互连模块,否则调用第二互连模块;第一互连模块,用于将交换节点间最大加权距离对应的交换节点进行互连;第二互连模块,用于对该多个计算节点按照同一分组内计算资源连续的原则,进行分组,根据每一个交换节点在分组中的隶属情况,找到交换节点分别属于两个分组的节点对,通过对分组间节点对的加权距离进行排序,得到分组间排序队列,将该排序队列中最大加权距离对应的交换节点进行互连。该基于作业部署信息的链路互连系统,其中通过本文档来自技高网
...

【技术保护点】
1.一种基于作业部署信息的链路互连方法,其特征在于,包括:步骤1、计算系统获取待运行的作业,作为当前作业,根据该当前作业的资源部署信息,为该当前作业的分配多个计算节点,获取与该计算节点相连的交换节点间的通信概率总和,以及交换节点间的路由路径经过除该当前作业以外的其余作业的路由路径数量,根据该通信概率总和、该路由路径数量,得到多个该交换节点间的加权距离;步骤2、判断该多个计算节点的计算资源是否连续,若计算资源连续,则执行步骤3,否则执行步骤4;步骤3、将交换节点间最大加权距离对应的交换节点进行互连;步骤4、对该多个计算节点按照同一分组内计算资源连续的原则,进行分组,根据每一个交换节点在分组中的隶属情况,找到交换节点分别属于两个分组的节点对,通过对分组间节点对的加权距离进行排序,得到分组间排序队列,将该排序队列中最大加权距离对应的交换节点进行互连。

【技术特征摘要】
1.一种基于作业部署信息的链路互连方法,其特征在于,包括:步骤1、计算系统获取待运行的作业,作为当前作业,根据该当前作业的资源部署信息,为该当前作业的分配多个计算节点,获取与该计算节点相连的交换节点间的通信概率总和,以及交换节点间的路由路径经过除该当前作业以外的其余作业的路由路径数量,根据该通信概率总和、该路由路径数量,得到多个该交换节点间的加权距离;步骤2、判断该多个计算节点的计算资源是否连续,若计算资源连续,则执行步骤3,否则执行步骤4;步骤3、将交换节点间最大加权距离对应的交换节点进行互连;步骤4、对该多个计算节点按照同一分组内计算资源连续的原则,进行分组,根据每一个交换节点在分组中的隶属情况,找到交换节点分别属于两个分组的节点对,通过对分组间节点对的加权距离进行排序,得到分组间排序队列,将该排序队列中最大加权距离对应的交换节点进行互连。2.如权利要求1所述的基于作业部署信息的链路互连方法,其特征在于,通过下式得到该加权距离:Dist(x,y)=P(x→y)×Hop(x→y)+P(y→x)×Hop(y→x)其中Dist(x,y)表示交换节点x和交换节点y之间的加权距离,P(x→y)表示当前作业连接在交换节点x上的计算节点向连接在交换节点y上的计算节点的通信概率,P(y→x)是前作业连接在交换节点y上的计算节点向连接在交换节点x上的计算节点的通信概率;Hop(x→y)是从交换节点x到交换节点y的路由路径经过除当前作业以外的其他作业占有的路由路径数,Hop(y→x)是从交换节点y到交换节点x的路由路径经过除当前作业以外的其他作业占有的路由路径数。3.如权利要求2所述的基于作业部署信息的链路互连方法,其特征在于,通过下式得到Hop(x→y):为路由路径上,标号为i的作业所占有的ni个交换节点间出现两两单向通信流量的数量和分组间节点对的数量,m为计算系统执行的作业总量。4.如权利要求1所述的基于作业部署信息的链路互连方法,其特征在于,该步骤4包括:若该排序队列中存在多个最大加权距离,则将具有最多交换节点个数的分组所在的节点对进行互连。5.如权利要求1所述的基于作业部署信息的链路互连方法,其特征在于,该步骤1还包括,对该当前作业内调用通信函数,按照通信发送进程对通信接收进程的通信数量占该发送进程通信数据量的比例求得通信概率。6.一种基于作业部署信息的链路互连系...

【专利技术属性】
技术研发人员:邵恩张鹏王展元国军谭光明孙凝晖安学军
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1