一种监控IB网络流量的方法及系统技术方案

技术编号:24692288 阅读:45 留言:0更新日期:2020-06-27 11:16
本发明专利技术提供了一种监控IB网络流量的方法及系统,所述方法包括部署服务器集群,为集群中的节点配备IB网卡和驱动;开启IB组网服务,进行集群服务器的IB联通;多节点上运行并行软件,并在待测节点上执行监控脚本,获取IB网络流量的占用情况。本发明专利技术通过在集群节点上运行并行软件,并同时在节点上执行监控脚本,获取性能计数端口发送和接收的实时流量值,从而判断当前节点上IB网络是否被占用,弥补现有技术无法获取IB网络使用情况的缺陷,便于集群网络的日常维护。

A method and system for monitoring IB network traffic

【技术实现步骤摘要】
一种监控IB网络流量的方法及系统
本专利技术涉及网络监控
,尤其是一种监控IB网络流量的方法及系统。
技术介绍
IB(InfiniBand,无限带宽)是一种用于高性能计算的计算机网络通信标准。它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand也用作服务器与存储系统之间的直接或交换互连,以及存储系统之间的互连。目前IB在高性能计算集群HPC(HighPerformanceComputing)和大规模存储系统中运用广泛。HPC中的科研任务,在算例模型较大的情况下,往往需要多台服务器多核心进行并行计算,以缩短计算时间。多台服务器之间的并行计算,通过IB网络进行数据的交互会大大提升效率。目前Linux系统自带的网络监控工具,只能监控到以太网络的流量情况,无法监控到IB网络的实时流量,只能借助IB自身的测试工具来侧面反映IB网络的使用情况,给日常运维造成不便。现有专利号为201310253119.5的专利申请公开了InfiniBand网络检测方法,具体包括获取InfiniBand网络中的设备的设备名称与LID号的第一对应关系和设备中的各个端口的物理端口号和逻辑端口号的第二对应关系;获取InfiniBand网络中的出错端口所在的设备的LID号和出错端口的逻辑端口号;根据第一对应关系、第二对应关系、出错端口所在的设备的LID号和出错端口的逻辑端口号获取出错端口所在的设备的设备名称和出错端口的物理端口号。该专利申请的方案主要是为了检测故障端口,依然无法获取实时的IB网络使用情况。
技术实现思路
本专利技术提供了一种监控IB网络流量的方法及系统,用于解决现有方案无法实时获取IB网络的使用情况,造成运维不变的问题。为实现上述目的,本专利技术采用下述技术方案:本专利技术第一方面提供了一种监控IB网络流量的方法,所述方法包括以下步骤:部署服务器集群,为集群中的节点配备IB网卡和驱动;开启IB组网服务,进行集群服务器的IB联通;多节点上运行并行软件,并在待测节点上执行监控脚本,获取IB网络流量的占用情况。进一步的,所述监控脚本的执行过程为:设置数据的获取频率;基于所述频率,分别读取性能计数器端口发送和接收的字节数;将读取结果进行逐行显示;根据显示的结果判断IB网络是否被占用。进一步的,所述服务器集群中还部署了用作基本通讯和管理的以太网络。进一步的,所述开启IB组网服务,进行集群服务器的IB联通的具体过程为:在任意一个节点上开启opensm服务;查看IB网卡状态,并配置IB网络配置文件,使集群中所有设备接入同一IB交换机。进一步的,所述开启opensm服务的节点为集群主节点或管理节点。进一步的,所述并行软件包括使用服务器运行的程序,所述程序支持跨节点多机并行。进一步的,所述监控脚本的执行过程还包括:设定时间间隔,在所述时间间隔内分别统计性能计数器端口发送和接收的字节数;将统计结果按照统计时间进行记录,所述统计结果包括性能计数端口发送和接收字节数的最值/平均值。本专利技术第二方面提供了一种监控IB网络流量的系统,所述系统包括:集群部署模块,用于部署服务器集群,为集群中的节点配备IB网卡和驱动;网络配置模块,用于开启IB组网服务,进行集群服务器的IB联通;流量监控模块,多节点上运行并行软件时,在待测节点上执行监控脚本,获取IB网络流量的占用情况。进一步的,所述流量监控模块包括:设置单元,用于设置数据的获取频率;信息获取单元,基于所述频率,分别读取性能计数器端口发送和接收的字节数;显示单元,用于将读取结果进行逐行显示;判断单元,根据显示的结果判断IB网络是否被占用。进一步的,所述流量监控模块还包括:统计单元,设定时间间隔,在所述时间间隔内分别统计性能计数器端口发送和接收的字节数;分析单元,将统计结果按照统计时间进行记录,所述统计结果包括性能计数端口发送和接收字节数的最值/平均值。本专利技术第二方面的所述监控IB网络流量的系统能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
技术实现思路
中提供的效果仅仅是实施例的效果,而不是专利技术所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:1、本专利技术通过在集群节点上运行并行软件,并同时在节点上执行监控脚本,获取性能计数端口发送和接收的实时流量值,从而判断当前节点上IB网络是否被占用,弥补现有技术无法获取IB网络使用情况的缺陷,便于集群网络的日常维护。2、在得到实时流量值的基础上,对发送和接收的流量值进行进一步的统计分析,得到IB网络的占用高峰和均值,对IB网络的使用情况进行进一步的了解。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术所述方法的流程示意图;图2是本专利技术所述脚本的运行过程示意图;图3是本专利技术所述系统的结构示意图。具体实施方式为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本专利技术进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本专利技术的不同结构。为了简化本专利技术的公开,下文中对特定例子的部件和设置进行描述。此外,本专利技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本专利技术省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本专利技术。如图1所示,本专利技术一种监控IB网络流量的方法,包括以下步骤:S1,部署服务器集群,为集群中的节点配备IB网卡和驱动;S2,开启IB组网服务,进行集群服务器的IB联通;S3,多节点上运行并行软件,并在待测节点上执行监控脚本,获取IB网络流量的占用情况。步骤S1中,以部署高性能集群为例,需要多台服务器,每台服务器配备Infiniband网卡,他们之间部署成为一个集群。每台服务器安装Linux系统,并安装对应的IB驱动,保持IB驱动版本一致。集群中的服务器同时配有以太网网络,来做基本的通讯和管理来使用。步骤S2中,开启IB组网服务,进行集群服务器的IB联通的具体过程为:在任意一个节点上开启opensm服务;查看IB网卡状态,并配置IB网络配置文件,使集群中所有设备接入同一IB交换机,实现集群服务器的IB联通。其中开启opensm服务的节点为集群主节点或管理节点。步骤S3中,并行软件包括使用服务器运行的程序,比如物理学、数学、材料学等使用的如vasp、高斯等程序软件,程序支持跨节点多机本文档来自技高网
...

【技术保护点】
1.一种监控IB网络流量的方法,其特征是,所述方法包括以下步骤:/n部署服务器集群,为集群中的节点配备IB网卡和驱动;/n开启IB组网服务,进行集群服务器的IB联通;/n多节点上运行并行软件,并在待测节点上执行监控脚本,获取IB网络流量的占用情况。/n

【技术特征摘要】
1.一种监控IB网络流量的方法,其特征是,所述方法包括以下步骤:
部署服务器集群,为集群中的节点配备IB网卡和驱动;
开启IB组网服务,进行集群服务器的IB联通;
多节点上运行并行软件,并在待测节点上执行监控脚本,获取IB网络流量的占用情况。


2.根据权利要求1所述监控IB网络流量的方法,其特征是,所述监控脚本的执行过程为:
设置数据的获取频率;
基于所述频率,分别读取性能计数器端口发送和接收的字节数;
将读取结果进行逐行显示;
根据显示的结果判断IB网络是否被占用。


3.根据权利要求2所述监控IB网络流量的方法,其特征是,所述服务器集群中还部署了用作基本通讯和管理的以太网络。


4.根据权利要求2所述监控IB网络流量的方法,其特征是,所述开启IB组网服务,进行集群服务器的IB联通的具体过程为:
在任意一个节点上开启opensm服务;
查看IB网卡状态,并配置IB网络配置文件,使集群中所有设备接入同一IB交换机。


5.根据权利要求4所述监控IB网络流量的方法,其特征是,所述开启opensm服务的节点为集群主节点或管理节点。


6.根据权利要求2所述监控IB网络流量的方法,其特征是,所述并行软件包括使用服务器运行的程序,所述程序支持跨节点多机并行。

...

【专利技术属性】
技术研发人员:冯岩
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1