一种信息运维故障日志的特征选择方法技术

技术编号:32436506 阅读:26 留言:0更新日期:2022-02-26 07:54
本发明专利技术针对信息运维故障日志的不断增长且文本分类系统中原始特征向量空间的维数巨大,造成文本表示的数据稀疏和分类器过分拟合影响文本分类的效率和精确度的问题,主要从不平衡数据的特殊性开始研究,从信息运维故障日志的特征选择和重采样入手,研究针对不平衡数据的特征选择和重采样方法,提出了一种信息运维故障日志的特征选择方法。首先提出了一种针对不平衡数据集的基于相对贡献率的特征选择算法。该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小,进行特征选择。其次提出了一种基于相关程度与区分程度的特征选择算法。该算法利用特征选择的四个基本信息要素,把特征对于类别的相关程度表示出来,同时也把特征对于类别的区分程度表示出来。最后提出了基于不平衡信息运维故障日志的重采样方法,对欠采样方法进行改进。对欠采样方法进行改进。对欠采样方法进行改进。

【技术实现步骤摘要】
Accuracy对RC算法进行了评价。在文本分类领域中常用精度P、召回率R结果进行度量。精度P为正确分类的样本数量与测试样本总数之比。召回率R是正确分类的样本数量与预先标记的样本数量之比。而F1
micro
和F1
macro
度量是结合了精度和召回率进行的评价的指标,计算公式如下:
[0008][0009][0010][0011][0012][0013][0014]准确率为正确分类的百分比,常被用来衡量分类器的性能,计算公式如下:
[0015][0016]本专利技术的一种信息运维故障日志的特征选择方法与现有的特征选择算法相比的有益效果是:从相对贡献率的角度度量一个特征对于分类的重要性,基于RC算法的微平均性能和宏平均性能优于其他的特征选择算法,并且随着特征的增多性能越来越好,准确率也随着特征数量的增加而越来越高。
附图说明
[0017]图1为两个特征在不同类别中的特征频率曲线图;
[0018]图2为不同特征选择算法应用在20N数据集时贝叶斯分类器的微平均曲线图;
[0019]图3为不同特征选择算法应用在2本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息运维故障日志的特征选择方法,其特征是,它包括以下步骤:步骤1)提出了一种针对不平衡信息运维故障日志数据集的基于相对贡献率的特征选择算法。该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小,从而进行特征选择。并且使用了基准数据集20-Newgroups,在朴素贝叶斯和支持向量机两个分类器上对该方法进行了验证;(1.1)根据特征-频度矩阵计算特征t1,t2在类别中的重要性;(1.2)为了削弱与类别相关的影响,本文使用每个类中的特征总频度对特征在类别中的贡献进行了平衡,计算公式为:(1.3)为了让结果曲线较圆滑,防止特征频率为0的情况,对上述算法进行了进一步的处理,公式为:(1.4)评估所提出的信息运维故障日志特征选择算法的性能;步骤2)提出了一种基于相关程度与区分程度的特征选择算法。该算法利用特征选择的四个基本信息要素,把特征对于类别的相关程度表示出来,同时也把特征对于类别的区分程度表示出来;(2.1)根据特征,计算出t
k
对类别c
i
的区分能力为:(2.2)特征t
k
与某个类别c<...

【专利技术属性】
技术研发人员:吕洪波郝成亮马旭东张凯樊家树
申请(专利权)人:国网吉林省电力有限公司信息通信公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1