一种基于机器学习算法的故障定界方法技术

技术编号:38324006 阅读:10 留言:0更新日期:2023-07-29 09:06
本发明专利技术公开了一种基于机器学习算法的故障定界方法,属于移动通信网络识别技术领域,采用TF

【技术实现步骤摘要】
一种基于机器学习算法的故障定界方法


[0001]本专利技术涉及移动通信网络识别
,具体地说是一种基于机器学习算法的故障定界方法。

技术介绍

[0002]随着移动通信网络的迅速发展,网络故障定界技术也取得了长足的进步,网络故障诊断模块受到了越来越多的关注。但是传统的网络故障定界技术仍然存在一定的局限性,无法有效地识别出网络故障,从而影响系统的可靠性和安全性。由于移动通信网络具有实时性强、速度快、复杂度高等特点,如何有效地处理网络故障成为当务之急。
[0003]利用无监督机器学习算法,在流量大、信令多样、信息流失快的情况下,为移动通信领域提供一种低成本、高效率的网络故障诊断模型,从而极大地提升了系统的可靠性和可用性。通过对国内外对移动通信故障检测与诊断技术的比较分析,发现已有学者对故障检测和诊断中做了大量工作,对于不同场景所构建的故障检测技术也有多种。具体可分为以下几种类别:
[0004]1、离线诊断。通过提前配置故障发现规则,同时采集网络系统运行过程中产生的所有事件,针对已配置的规则对异常事件进行标注,最后通过将采集下来的信息保存到本地系统的方式进行故障诊断。但此种方法的弊端在于保存事件需要占用大量的存储空间,因而对系统的容量有较高要求;
[0005]2、在线诊断。在线诊断是指通过对故障进行复现,使用人工或系统自动化的方式查看产生故障的设备日志等信息并对其进行处理。此种方式的弊端在于故障不可能被完全复现,同时所需人力较多,成本较高。

技术实现思路

[0006]本专利技术的技术任务是针对以上不足之处,提供一种基于机器学习算法的故障定界方法,在处理故障的过程中提供低成本高性价比的网络故障诊断模型,能够有效定界网络的故障,提高网络的可靠性和安全性。
[0007]本专利技术解决其技术问题所采用的技术方案是:
[0008]一种基于机器学习算法的故障定界方法,采用TF

IDF算法对故障系统中收集到的设备信息的关键词进行逆文本指数分析,以确定每一份设备信息与其他设备信息的重要性;
[0009]利用K

Means聚类算法对经过TF

IDF计算得到的逆文本指数分数进行分类,以便在故障发生时,可以通过故障日志的逆文本指数分析结果进行有效的分类,从而更好地识别出故障原因,并采取有效的措施来解决问题;
[0010]利用T

SNE算法对聚类后的数据进行非线性降维,从而实现可视化的目的。
[0011]本方法将机器学习应用到故障定界中,将TF

IDF、K

Means与T

SNE算法相结合构建故障定界模型,形成一套高精度、低成本的故障定界方法,能够更快定界网络的故障,提
高网络的故障响应速度。
[0012]优选的,所述故障系统中收集到的设备信息,以AMF网元为核心,将采集上来的有关故障数据作为信息的处理源,为便于后续的机器学习;
[0013]预处理包含数据清洗、数据标准化,其中,数据清洗能够有效地检测出异常数据,并且根据不同的异常情况采取相应的处理措施;数据标准化能够协助机器学习更快地找到适用于故障定界的特性。通过数据预处理,机器学习能够大大提高分析效率,从而更好地满足需求。
[0014]进一步的,采用TF

IDF算法对故障系统中收集到的设备信息的关键词进行逆文本指数分析,过程如下:
[0015]1)、分词评定,在得到初始信息后,借用Jiaba工具对数据进行分词处理,并将分词后的数据以字符串的形式进行展现;
[0016]2)、进行词频转换,将分词后得到的矩阵转换成词频矩阵;
[0017]3)、然后计算各关键词的TF

IDF值,计算公式如下:
[0018][0019]其中,TF(d
i
,t
j
)代表词频,IDF(t
j
)代表逆向文件频率,词频表示该特征词在当前文本中出现的频率;通常我们认为,当关键词在某一文件中出现的频率较高,但在整个文件中出现的频率低时,认定该关键词的逆向文本指数分数较高。
[0020]4)、最后得到的分数表。
[0021]优选的,分词后的结果如表1所示:
[0022]表1分词后矩阵
[0023][0024]转换成词频矩阵如表2所示:
[0025]表2词频矩阵转换结果
[0026][0027]则得到的分数表如表3所示:
[0028]表3 TF

IDF计算结果
[0029][0030]进一步的,所述K

Means聚类步骤如下:
[0031]1)、将AMF流程知识库中的总项目值作为K

Means中的K值;随机选取50个数据作为质心;
[0032]2)、通过测量故障数据分析集中各个数据点与质心之间的一段距离,将其分配到质心所在的数据集中,以便更好地理解故障数据分析的特征和行为;
[0033]3)、计算集合中所有数据的均值,将以此作为一类新的质心,并重新计算各样本点到组心间的距离平方和;
[0034]4)、计算完成后,判断聚类组心及总距离的均值是否有变化,若有变化,重复上述步骤;如果没有变化,则聚类结束。
[0035]优选的,使用以下表达式来描述故障数据点与质心之间的关系:
[0036]data(j)=[G
j_11
,...,G
j_1N
,G
j_21
,...,G
j_2N
,...,G
48_j1
,...,G
j_jN
][0037]D=||data(j)

α(i)||2[0038]聚类后的数据如表4所示:
[0039]表4聚类后数据结果
[0040][0041]进一步的,所述利用T

SNE算法对聚类后的数据进行非线性降维,步骤如下:
[0042]1)、计算二维平面上点的相似性,选取某一个点,计算它与周围点距离得到该点与其他点的相似性分数,将这些点放在以该点为中心的正态曲线下,相似分数越大,说明两点在二维平面的距离越近;
[0043]2)、对得到的所有点的相似性分数进行标准化处理,使得总和为1;
[0044]3)、每个点对应的正态曲线在前后两次计算后得到的数值可能不同,因而利用T

SNE算法对两点的相似性分数计算均值,最后可得到一个矩阵;
[0045]4)、计算一维直线上的所有点的相似性分数,并将曲线从正态分布转换成t分布。
[0046]进一步的,所述数据降维,得到的降维结果如表5所示:
[0047]表5相似性分数降维结果
[0048][0049]本专利技术还要求保护一种基于机器学习算法的故障定界装置,包括:至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习算法的故障定界方法,其特征在于,采用TF

IDF算法对故障系统中收集到的设备信息的关键词进行逆文本指数分析,以确定每一份设备信息与其他设备信息的重要性;利用K

Means聚类算法对经过TF

IDF计算得到的逆文本指数分数进行分类,以便在故障发生时,可以通过故障日志的逆文本指数分析结果进行有效的分类,从而更好地识别出故障原因,并采取有效的措施来解决问题;利用T

SNE算法对聚类后的数据进行非线性降维,从而实现可视化的目的。2.根据权利要求1所述的一种基于机器学习算法的故障定界方法,其特征在于,所述故障系统中收集到的设备信息,以AMF网元为核心,将采集上来的有关故障数据作为信息的处理源;预处理包含数据清洗、数据标准化,其中,数据清洗能够有效地检测出异常数据,并且根据不同的异常情况采取相应的处理措施;数据标准化能够协助机器学习更快地找到适用于故障定界的特性。3.根据权利要求1或2所述的一种基于机器学习算法的故障定界方法,其特征在于,采用TF

IDF算法对故障系统中收集到的设备信息的关键词进行逆文本指数分析,过程如下:分词评定,在得到初始信息后,借用Jiaba工具对数据进行分词处理,并将分词后的数据以字符串的形式进行展现;进行词频转换,将分词后得到的矩阵转换成词频矩阵;然后计算各关键词的TF

IDF值,计算公式如下:其中,TF(d
i
,t
j
)代表词频,IDF(t
j
)代表逆向文件频率,词频表示该特征词在当前文本中出现的频率;最后得到的分数表。4.根据权利要求3所述的一种基于机器学习算法的故障定界方法,其特征在于,分词后的结果如表1所示:表1表1转换成词频矩阵如表2所示:表2
则得到的分数表如表3所示:表35.根据权利要求4所述的一种基于机器学习算法的故障定界方法,其特征在于,所述K

Means聚类步骤如下:1)、将AMF流程知识库中的总项目值作为K

Means中的...

【专利技术属性】
技术研发人员:李萌
申请(专利权)人:浪潮通信信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1