故障检测模型的训练方法、装置及系统制造方法及图纸

技术编号:29464855 阅读:18 留言:0更新日期:2021-07-27 17:50
本申请公开了一种故障检测模型的训练方法、装置及系统,属于通信领域。所述方法包括:转发设备接收至少一个业务流;所述转发设备获取所述至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;所述转发设备向第一设备发送训练信息,所述训练信息包括所述至少一个业务流的业务信息或基于所述至少一个业务流的业务信息获取的特征集合,所述训练信息用于训练故障检测模型,所述故障检测模型用于检测所述网络对象是否处于故障状态。本申请能够减小对网络资源的消耗。

【技术实现步骤摘要】
故障检测模型的训练方法、装置及系统
本申请涉及通信领域,特别涉及一种故障检测模型的训练方法、装置及系统。
技术介绍
数据通信网络或数据中心网络包括大量的终端或服务器等网络对象,网络对象连接到接入设备,接入设备再通过转发设备连接到广域网,这样网络对象可以通过该接入设备、该转发设备和广域网来传输业务流。其中,网络对象出现故障时,可能导致业务中断,造成严重损失,因此需要对网络对象的健康度进行检测,基于检测的结果可以及时发现网络对象出现的故障,然后采取相应措施对该网络对象进行处理。目前可以部署一个分析平台,首先在分析平台上训练出一个故障检测模型,分析平台通过该故障检测模型对任一网络对象的健康度进行检测。在训练故障检测模型时,对于任一网络对象的业务流,数据通信网络或数据中心网络中的接入设备或转发设备在接收到该业务流时,对该业务流进行镜像,向分析平台发送镜像得到的该业务流。分析平台可以接收各网络对象的业务流,根据各网络对象的业务流训练出故障检测模型。在实现本申请的过程中,专利技术人发现现有技术至少存在以下问题:由于故障检测模型是基于网络对象的业务流训练得到的,所以要求接入设备或转发设备对业务流进行镜像,然后将镜像得到的该业务流发送至分析平台,这样会消耗大量的网络资源。
技术实现思路
本申请提供了一种故障检测模型的训练方法、装置及系统,以减小对网络资源的消耗。所述技术方案如下:第一方面,本申请提供了一种故障检测模型的训练方法,在所述方法中:转发设备接收至少一个业务流。转发设备获取所述至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备。所述转发设备向第一设备发送训练信息,所述训练信息包括所述至少一个业务流的业务信息或基于所述至少一个业务流的业务信息获取的特征集合,所述训练信息用于训练故障检测模型,所述故障检测模型用于检测所述网络对象是否处于故障状态。由于转发设备获取的训练信息包括网络对象的标识信息和M个KPI,或基于网络对象的M个KPI获取的特征集合,所以训练信息的数据量远小于业务流,向第一设备发送业务信息所需要的网络资源远小于发送业务流所需要的网络资源,从而可以减少对网络资源的消耗。在一种可能的实现方式,所述转发设备根据配置策略信息,从所述业务流中获取至少一个目标业务报文,所述配置策略信息包括至少一个预设报文类型。所述转发设备根据所述至少一个目标业务报文,获取所述业务流的M个KPI。由于从业务流中的获取目标业务报文,根据目标业务报文获取业务流的M个KPI,这样可以减少需要分析的报文数目,提高获取KPI的效率。在另一种可能的实现方式,所述M个KPI包括所述转发设备与所述网络对象之间的网络时延,所述网络对象发送的属于所述业务流的数据量和所述网络对象接收的属于所述业务流的数据量中的至少一个。所述至少一个目标业务报文包括第一目标业务报文和第二目标业务报文,所述转发设备根据接收所述第一目标业务报文的第一时间和接收所述第二目标业务报文的第二时间,获取所述转发设备与所述网络对象之间的网络时延,所述第一目标业务报文是发送给所述网络对象的报文,所述第二目标业务报文是所述网络对象发送的与所述第一目标业务报文相对应的报文。和/或,所述至少一个目标业务报文包括第一起始报文和第一结束报文,所述转发设备根据所述第一起始报文的序列号和所述第一结束报文的序列号,获取所述网络对象发送的属于所述业务流的数据量,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文。和/或,所述至少一个目标业务报文包括第二起始报文和第二结束报文,所述转发设备根据所述第二起始报文的序列号和所述第二结束报文的序列号,获取所述网络对象接收的属于所述业务流的数据量,所述第二起始报文是所述网络对象接收的所述业务流的第一个报文,所述第二结束报文是所述网络对象接收的所述业务流的最后一个报文。如此可以准确地获取到网络时延,网络对象发送的数据量或接收的数据量。在另一种可能的实现方式,所述M个KPI包括状态标识,所述状态标识用于标识所述业务流的状态。所述至少一个目标业务报文包括第一起始报文,所述转发设备在第三时间之后的第一时间长度内,如果接收到第一结束报文,设置所述状态标识标识的状态为成功状态;如果未接收到所述第一结束报文,设置所述状态标识标识的状态为失败状态,所述第三时间为接收所述第一起始报文的时间,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文。如此可以准确地获取到业务流的状态标识,提高获取状态标识的准确性。在另一种可能的实现方式,所述转发设备从所述至少一个业务流中获取第一周期内的属于目标网络对象的N个业务流的KPI,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象,N为大于0的整数。所述转发设备基于所述N个业务流的KPI获取特征集合。由于特征集合包括基于属于目标网络对象的每个业务流的KPI获取的特征,这样该特征集合更能反应网络状态的健康状态,根据该特征集合训练的故障检测模型更加精确。在另一种可能的实现方式,所述特征集合包括至少一个统计特征。所述转发设备获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同。所述转发设备通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。由于将统计出不同的统计特征组成特征集合,从而丰富了特征集合包括的特征,使得特征集合更能反应网络对象的健康状况。在另一种可能的实现方式,所述特征集合还包括至少一个时域特征。所述转发设备通过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征。其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。由于时域特征是基于K个周期的统计特征得到的,且特征集合还包括该时域特征,使得特征集合包括具有时序性的特征。在另一种可能的实现方式,所述任一个KPI集合包括的所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述特征集合还包括成功状态的业务流比例和/或失败状态本文档来自技高网...

【技术保护点】
1.一种故障检测模型的训练方法,其特征在于,所述方法包括:/n转发设备接收至少一个业务流;/n所述转发设备获取所述至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;/n所述转发设备向第一设备发送训练信息,所述训练信息包括所述至少一个业务流的业务信息或基于所述至少一个业务流的业务信息获取的特征集合,所述训练信息用于训练故障检测模型,所述故障检测模型用于检测所述网络对象是否处于故障状态。/n

【技术特征摘要】
1.一种故障检测模型的训练方法,其特征在于,所述方法包括:
转发设备接收至少一个业务流;
所述转发设备获取所述至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;
所述转发设备向第一设备发送训练信息,所述训练信息包括所述至少一个业务流的业务信息或基于所述至少一个业务流的业务信息获取的特征集合,所述训练信息用于训练故障检测模型,所述故障检测模型用于检测所述网络对象是否处于故障状态。


2.如权利要求1所述的方法,其特征在于,所述业务流的协议类型为传输控制协议TCP,所述转发设备获取所述业务流的至少一个关键性能指标KPI,包括:
所述转发设备根据配置策略信息,从所述业务流中获取至少一个目标业务报文,所述配置策略信息包括至少一个预设报文类型;
所述转发设备根据所述至少一个目标业务报文,获取所述业务流的M个KPI。


3.如权利要求2所述的方法,其特征在于,所述M个KPI包括所述转发设备与所述网络对象之间的网络时延,所述网络对象发送的属于所述业务流的数据量和所述网络对象接收的属于所述业务流的数据量中的至少一个;
所述转发设备根据所述至少一个目标业务报文,获取所述业务流的M个KPI,包括:
所述至少一个目标业务报文包括第一目标业务报文和第二目标业务报文,所述转发设备根据接收所述第一目标业务报文的第一时间和接收所述第二目标业务报文的第二时间,获取所述转发设备与所述网络对象之间的网络时延,所述第一目标业务报文是发送给所述网络对象的报文,所述第二目标业务报文是所述网络对象发送的与所述第一目标业务报文相对应的报文;和/或,
所述至少一个目标业务报文包括第一起始报文和第一结束报文,所述转发设备根据所述第一起始报文的序列号和所述第一结束报文的序列号,获取所述网络对象发送的属于所述业务流的数据量,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文;和/或,
所述至少一个目标业务报文包括第二起始报文和第二结束报文,所述转发设备根据所述第二起始报文的序列号和所述第二结束报文的序列号,获取所述网络对象接收的属于所述业务流的数据量,所述第二起始报文是所述网络对象接收的所述业务流的第一个报文,所述第二结束报文是所述网络对象接收的所述业务流的最后一个报文。


4.如权利要求2或3所述的方法,其特征在于,所述M个KPI包括状态标识,所述状态标识用于标识所述业务流的状态;
所述转发设备根据所述至少一个目标业务报文,获取所述业务流的至少一个KPI,包括:
所述至少一个目标业务报文包括第一起始报文,所述转发设备在第三时间之后的第一时间长度内,如果接收到第一结束报文,设置所述状态标识标识的状态为成功状态;如果未接收到所述第一结束报文,设置所述状态标识标识的状态为失败状态,所述第三时间为接收所述第一起始报文的时间,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文。


5.如权利要求1至4任一项所述的方法,其特征在于,所述转发设备向第一设备发送训练信息之前,还包括:
所述转发设备从所述至少一个业务流中获取第一周期内的属于目标网络对象的N个业务流的KPI,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象,N为大于0的整数;
所述转发设备基于所述N个业务流的KPI获取特征集合。


6.如权利要求5所述的方法,其特征在于,所述特征集合包括至少一个统计特征,所述转发设备基于所述N个业务流的KPI获取特征集合,包括:
所述转发设备获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同;
所述转发设备通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。


7.如权利要求6所述的方法,其特征在于,所述特征集合还包括至少一个时域特征,所述对所述任一个KPI集合包括的KPI进行计算之后,还包括:
所述转发设备通过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征;
其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。


8.如权利要求6或7所述的方法,其特征在于,所述任一个KPI集合包括的所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述特征集合还包括成功状态的业务流比例和/或失败状态的业务流比例;
所述对所述任一个KPI集合包括的KPI进行计算之后,还包括:
根据所述用于标识成功状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算成功状态的业务流比例;和/或,
根据所述用于标识失败状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算失败状态的业务流比例。


9.如权利要求1至8任一项所述的方法,其特征在于,所述第一设备为云平台、分析器平台或所述转发设备的上游设备。


10.如权利要求1至9任一项所述的方法,其特征在于,所述网络对象是终端、服务器、客户端、虚拟机、路由器、交换机、虚拟局域网VLAN中的设备或指定网段中的设备。


11.如权利要求1至10任一项所述的方法,其特征在于,所述M个KPI用于描述所述业务流的特征。


12.一种故障检测模型的训练方法,其特征在于,所述方法包括:
第一设备接收第一转发设备发送的至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;
所述第一设备根据所述至少一个业务流的业务信息训练故障检测模型,或者,根据所述至少一个业务流的业务信息获取用于训练故障检测模型的至少一个特征集合,所述故障检测模型用于检测所述网络对象是否处于故障状态。


13.如权利要求12所述的方法,其特征在于,所述第一设备根据所述至少一个业务流的业务信息训练故障检测模型,包括:
所述第一设备获取至少一个特征集合,任一个特征集合包括基于属于目标网络对象的每个业务流的KPI获取的至少一个特征,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象;
所述第一设备根据所述至少一个特征集合训练故障检测模型。


14.如权利要求12或13所述的方法,其特征在于,任一个特征集合包括至少一个统计特征,所述第一设备获取任一个特征集合,包括:
所述第一设备获取第一周期内的属于所述目标网络对象的N个业务流的KPI,所述第一周期位于所述第一时间段内,N为大于0的整数;
所述第一设备获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同;
所述第一设备通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。


15.如权利要求14所述的方法,其特征在于,所述任一个特征集合还包括至少一个时域特征,所述对所述任一个KPI集合包括的KPI进行计算之后,还包括:
通过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征;
其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。


16.如权利要求14或15所述的方法,其特征在于,所述任一个KPI集合包括所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述任一个特征集合还包括成功状态的业务流比例和/或失败状态的业务流比例;
所述对所述任一个KPI集合包括的KPI进行计算之后,还包括:
根据所述用于标识成功状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算成功状态的业务流比例;和/或,
根据所述用于标识失败状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算失败状态的业务流比例。


17.如权利要求14至16任一项所述的方法,其特征在于,所述第一设备获取所述任一个特征集合之后,还包括:
生成训练样本,所述训练样本包括所述任一个特征集合和所述训练样本的标签,在所述目标网络对象处于故障状态的情况下,所述标签用于标识所述故障状态,在所述目标网络对象处于正常状态的情况下,所述标签用于标识所述正常状态。


18.如权利要求13所述的方法,其特征在于,所述第一设...

【专利技术属性】
技术研发人员:薛莉张亮程剑叶浩楠司晓云
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1