分布式存储系统网络亚健康检测方法及装置制造方法及图纸

技术编号:24119974 阅读:22 留言:0更新日期:2020-05-13 02:47
本发明专利技术公开了一种分布式存储系统网络亚健康检测方法及装置。其中,该方法包括:确定分布式系统中多个对象存储设备OSD的数据落盘进程之间的心跳报文、对象存储设备OSD与对象存储设备OSD的副本之间的通信报文,其中,心跳报文和通信报文均通过对象存储设备OSD之间的网络进行传输,分布式系统包括多个对象存储设备OSD;根据心跳报文和通信报文对对象存储设备OSD之间的网络是否压亚健康进行确定。本发明专利技术解决了相关技术中分布式系统中网络发生异常之后,引起系统问题才能检测到,无法对网络异常进行预先确定的技术问题。

【技术实现步骤摘要】
分布式存储系统网络亚健康检测方法及装置
本专利技术涉及系统监测领域,具体而言,涉及一种分布式存储系统网络亚健康检测方法及装置。
技术介绍
在分布式存储系统中,网络的健康对系统稳定性和性能影响很大,但实际情况中,网络往往是不稳定的,网卡降速、网络时间大、网络丢包都会影响分布式存储系统的性能和稳定性。分布式存储系统中,对于网络亚健康的判断和隔离是非常复杂的,大都通过每条链路之间ping或通过网络诊断工具去判断网络亚健康,但是这样必定会增加分布式存储系统的压力,极大的影响到业务,另外,如果判断不准确,也会导致错误的隔离,带来更大的风险。相关技术中有通过检测网络资源状态变化,定位受到网络亚健康影响的节点,然后针对这些节点发送探测包,识别链路时间异常和丢包等问题,根据诊断结果进行网口隔离,链路隔离,节点隔离等。现有技术能检测到网络亚健康,主要的缺点是不及时,根据网络资源状态来判断,网络资源发生变化,已经是时间或丢包等比较大问题比较严重的情况了,已经是引起系统性能下降或系统异常等稳定性问题,这个判断已经晚了。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种分布式存储系统网络亚健康检测方法及装置,以至少解决相关技术中分布式系统中网络发生异常之后,引起系统问题才能检测到,无法对网络异常进行预先确定的技术问题。根据本专利技术实施例的一个方面,提供了一种分布式系统确定方法,包括:确定分布式系统中多个对象存储设备OSD的数据落盘进程之间的心跳报文、所述对象存储设备OSD与所述对象存储设备OSD的副本之间的通信报文,其中,所述心跳报文和所述通信报文均通过所述对象存储设备OSD之间的网络进行传输,所述分布式系统包括多个对象存储设备OSD;根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定。可选的,根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定包括:确定在过去的第一预设时间段内,所述通信报文或所述心跳报文的网络延时超过第一预设时间的次数是否超过所述预设次数;在所述通信报文或所述心跳报文的网络延时超过第一预设时间的次数,超过所述预设次数的情况下,确定所述对象存储设备OSD之间的所述网络亚健康。可选的,根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定包括:确定在过去的第二预设时间段内,所述通信报文的网络延时,是否超过第二预设时间,且超过过去的第三预设时间段内所述通信报文的历史数据的平均延时的第一预设倍数;在所述第二预设时间段内,所述通信报文的网络延时,超过第二预设时间,且所述通信报文的网络延时超过所述第三预设时间段内所述通信报文的历史数据的平均延时的第一预设倍数的情况下,确定所述对象存储设备OSD之间的所述网络亚健康。可选的,确定在第二预设时间段内,所述通信报文的网络延时,是否超过第二预设时间,且超过第三预设时间段的延时的预设倍数之前,包括:确定与所述通信报文的发送地址相同,且文件大小的等级相同的通信报文为所述历史数据,其中,所述文件大小的等级为多个,多个等级分别为所述文件大小的多个预设范围。可选的,根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定包括:确定在第四预设时间段内,所述对象存储设备OSD所在的存储池内所有心跳报文的网络延时,并根据所述存储池的所有的心跳报文的网络延时确定所述心跳报文的平均网络延时;确定在所述第四预设时间段内,所述心跳报文的平均网络延时,是否超过第三预设时间,且超过第四预设时间段的所述存储池的平均网络延时的第二预设倍数;在所述第四预设时间段内,所述心跳报文的平均网络延时,超过第三预设时间,且超过第四预设时间段的所述存储池的平均网络延时的第二预设倍数的情况下,确定所述对象存储设备OSD之间的所述网络亚健康。可选的,根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定之后,所述方法还包括:在检测到所述对象存储设备OSD之间的所述网络亚健康的情况下,将用于检测网络异常的探测包发送到发生异常的所述网络的位置,通过所述探测包的接收情况,确定所述对象存储设备OSD之间的所述网络是否属实异常。可选的,在确定所述对象存储设备OSD之间的所述网络属实异常的情况下,还包括:隔离所述分布式系统中发生异常的所述对象存储设备OSD之间的所述网络。根据本专利技术实施例的另一方面,还提供了一种分布式系统检测装置,包括:确定模块,用于确定分布式系统中多个对象存储设备OSD的数据落盘进程之间的心跳报文、所述对象存储设备OSD与所述对象存储设备OSD的副本之间的通信报文,其中,所述心跳报文和所述通信报文均通过所述对象存储设备OSD之间的网络进行传输,所述分布式系统包括多个对象存储设备OSD;检测模块,用于根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定。根据本专利技术实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的分布式存储系统网络亚健康检测方法。根据本专利技术实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述分布式存储系统网络亚健康检测方法。在本专利技术实施例中,采用确定分布式系统中多个对象存储设备OSD的数据落盘进程之间的心跳报文、对象存储设备OSD与对象存储设备OSD的副本之间的通信报文,其中,心跳报文和通信报文均通过对象存储设备OSD之间的网络进行传输,分布式系统包括多个对象存储设备OSD;根据心跳报文和通信报文对对象存储设备OSD之间的网络是否亚健康进行确定的方式,通过分布式系统的对象存储设备OSD之间的心跳报文,和对象存储设备OSD的副本和编程语言EC的通信报文,对上述对象存储设备之间的网络是否亚健康进行确定,达到了对分布式系统的异常进行预测的目的,从而实现了预先确定分布式系统的异常的技术效果,进而解决了相关技术中分布式系统中网络发生异常之后,引起系统问题才能检测到,无法对网络异常进行预先确定技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种分布式存储系统网络亚健康检测方法的流程图;图2是根据本专利技术实施例的一种分布式存储系统网络亚健康检测装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的本文档来自技高网
...

【技术保护点】
1.一种分布式存储系统网络亚健康检测方法,其特征在于,包括:/n确定分布式系统中多个对象存储设备OSD的数据落盘进程之间的心跳报文、所述对象存储设备OSD与所述对象存储设备OSD的副本之间的通信报文,其中,所述心跳报文和所述通信报文均通过所述对象存储设备OSD之间的网络进行传输,所述分布式系统包括多个对象存储设备OSD;/n根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定。/n

【技术特征摘要】
1.一种分布式存储系统网络亚健康检测方法,其特征在于,包括:
确定分布式系统中多个对象存储设备OSD的数据落盘进程之间的心跳报文、所述对象存储设备OSD与所述对象存储设备OSD的副本之间的通信报文,其中,所述心跳报文和所述通信报文均通过所述对象存储设备OSD之间的网络进行传输,所述分布式系统包括多个对象存储设备OSD;
根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定。


2.根据权利要求1所述的方法,其特征在于,根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定包括:
确定在过去的第一预设时间段内,所述通信报文或所述心跳报文的网络延时超过第一预设时间的次数是否超过所述预设次数;
在所述通信报文或所述心跳报文的网络延时超过第一预设时间的次数,超过所述预设次数的情况下,确定所述对象存储设备OSD之间的所述网络亚健康。


3.根据权利要求1所述的方法,其特征在于,根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定包括:
确定在过去的第二预设时间段内,所述通信报文的网络延时,是否超过第二预设时间,且超过过去的第三预设时间段的平均延时的第一预设倍数,其中,所述平均延时为过去的所述第三预设时间段内内所述通信报文的历史数据的平均网络延时;
在所述第二预设时间段内,所述通信报文的网络延时,超过第二预设时间,且所述通信报文的网络延时超过所述第三预设时间段内所述通信报文的历史数据的平均延时的第一预设倍数的情况下,确定所述对象存储设备OSD之间的所述网络亚健康。


4.根据权利要求3所述的方法,其特征在于,确定在第二预设时间段内,所述通信报文的网络延时,是否超过第二预设时间,且超过第三预设时间段的延时的预设倍数之前,包括:
确定与所述通信报文的发送地址相同,且文件大小的等级相同的通信报文为所述历史数据,其中,所述文件大小的等级为多个,多个等级分别为所述文件大小的多个预设范围。


5.根据权利要求1所述的方法,其特征在于,根据所述心跳报文和所述通信报文对所述对象存储设备OSD之间的网络是否亚健康进行确定...

【专利技术属性】
技术研发人员:肖永玲黄骏王豪迈胥昕
申请(专利权)人:星辰天合北京数据科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1