【技术实现步骤摘要】
主机内性能瓶颈的根因定位方法、电子设备及存储介质
[0001]本公开涉及计算机网络
,具体涉及主机内性能瓶颈的根因定位方法、电子设备及存储介质。
技术介绍
[0002]远程直接数据存取(Remote Direct Memory Access,简称为RDMA)已应用于数据中心内的众多应用如分布式机器学习、分布式存储等,以实现高吞吐和低延迟。作为网络通信的最后一跳,主机内网络显著影响着网络应用的性能。然而主机内网络也会出现瓶颈,主机内带宽可能由于突发的链路故障或被其他流量占用而降低,当主机内带宽下降时,RDMA网卡上的业务流量更有可能被阻塞。进一步地,在多机系统如分布式训练场景中,一台主机上的性能瓶颈可能会导致整个系统的吞吐严重下降,严重时甚至会导致训练任务停滞。因此,就需要准确地定位到主机内性能瓶颈的根因,以避免影响业务性能。
技术实现思路
[0003]有鉴于此,本公开实施例提供了一种主机内性能瓶颈的根因定位方法、电子设备及存储介质,以解决主机内性能瓶颈的根因定位的问题。
[0004]根据第一方面 ...
【技术保护点】
【技术特征摘要】
1.一种主机内性能瓶颈的根因定位方法,其特征在于,包括:获取待测主机内的路径拓扑结构;基于所述路径拓扑结构对所述待测主机内的目标路径进行环回测试,确定所述目标路径的路径性能,所述目标路径为所述待测主机内的网卡与所述待测主机内的端点之间的路径;基于所述路径性能对所述目标路径进行路径状态分析,确定所述待测主机内性能瓶颈的根因。2.根据权利要求1所述的方法,其特征在于,所述基于所述路径拓扑结构对所述待测主机内的目标路径进行环回测试,确定所述目标路径的路径性能,包括:在所述待测主机的目标端点内注册第一内存空间以及第二内存空间,所述目标端点为所述目标路径的端点;向所述网卡下发第一数据读取指令,以将第一长度的第一数据从所述第一内存空间读取到所述网卡的缓存空间并将读取到的所述第一数据写入所述第二内存空间;记录从所述第一内存空间的中读取所述第一数据的第一时间,以及所述网卡将所述第一数据存入所述第二内存空间的第二时间;基于所述第二时间与所述第一时间的第一时间差,确定所述目标路径的延时,以确定所述目标路径的路径性能。3.根据权利要求2所述的方法,其特征在于,所述基于所述第二时间与所述第一时间的第一时间差,确定所述目标路径的延时,以确定所述目标路径的路径性能,包括:向所述网卡下发第二数据读取指令,以将第二长度的第二数据从所述第一内存空间读取到所述网卡的缓存空间并将读取到的所述第二数据写入所述第二内存空间,所述第二长度大于所述第一长度;记录所述网卡从所述第一内存空间的中读取所述第二数据的第三时间,以及所述网卡将所述第二数据存入所述第二内存空间的第四时间;计算所述第四时间与所述第三时间的第二时间差,并将所述第二时间差与所述第一时间差的差值,确定为所述目标路径的带宽。4.根据权利要求1所述的方法,其特征在于,所述基于所述路径拓扑结构对所述待测主机内的目标路径进行环回测试,确定所述目标路径的路径性能,还包括:获取所述待测主机的状态,所述状态包括空闲或忙碌;基于所述待测主机的状态确定所述目标路径;对所述目标路径进行环回测试,确定所述目标路径的路径性能。5.根据权利要求4所述的方法,其特征在于,所述基于所述待测主机的状态确定所述目标路径,包括:当所述待测主机的状态为空闲时,确定所述目标路径为所述待测主机内所有网卡到所有端点之间的路径;当所述待测主机的状态为忙碌时,确定所述目标路径为所述待测主机内异常网卡到第一目标端点之间的路径,所述第一目标端点包括所述待测主机的所有内存节点以及与所述异常网卡在相同中央处理器根节点下的图形处理器。6.根据权利要求1所述的方法,其特征在于,所述基于所述路径性能对所述目标路径进
行路径状态分析,确定所述待测主机内性能瓶颈的根因,包括:基于所述路径性能的大小,确定所述目标路径中的异常链路;基于所述异常链路的信息确定所述待测主机内性能瓶颈的根因,所述异常链路的信息包括所述异常链路的位置或利用率。7.根据权利要求6所述的方法,其特征在于,所述基于所述路径性能的大小,确定所述目标路径中的异常链路,包括:基于所述路径性能的大小,确定所述目标路径的状态信息,所述状态信息包括正常路径或异常路径;查询所述异常路径中各链路的状态,将链路状态为不确定的链路为所述异常链路;当存在所有链路的状态均为正常的异常路径时,将所述所有链路的状...
【专利技术属性】
技术研发人员:江卓,刘克非,魏浩然,钟小龙,王剑,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。