【技术实现步骤摘要】
Accuracy对RC算法进行了评价。在文本分类领域中常用精度P、召回率R结果进行度量。精度P为正确分类的样本数量与测试样本总数之比。召回率R是正确分类的样本数量与预先标记的样本数量之比。而F1
micro
和F1
macro
度量是结合了精度和召回率进行的评价的指标,计算公式如下:
[0008][0009][0010][0011][0012][0013][0014]准确率为正确分类的百分比,常被用来衡量分类器的性能,计算公式如下:
[0015][0016]本专利技术的一种信息运维故障日志的特征选择方法与现有的特征选择算法相比的有益效果是:从相对贡献率的角度度量一个特征对于分类的重要性,基于RC算法的微平均性能和宏平均性能优于其他的特征选择算法,并且随着特征的增多性能越来越好,准确率也随着特征数量的增加而越来越高。
附图说明
[0017]图1为两个特征在不同类别中的特征频率曲线图;
[0018]图2为不同特征选择算法应用在20N数据集时贝叶斯分类器的微平均曲线图;
[0019]图3为不同 ...
【技术保护点】
【技术特征摘要】
1.一种信息运维故障日志的特征选择方法,其特征是,它包括以下步骤:步骤1)提出了一种针对不平衡信息运维故障日志数据集的基于相对贡献率的特征选择算法。该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小,从而进行特征选择。并且使用了基准数据集20-Newgroups,在朴素贝叶斯和支持向量机两个分类器上对该方法进行了验证;(1.1)根据特征-频度矩阵计算特征t1,t2在类别中的重要性;(1.2)为了削弱与类别相关的影响,本文使用每个类中的特征总频度对特征在类别中的贡献进行了平衡,计算公式为:(1.3)为了让结果曲线较圆滑,防止特征频率为0的情况,对上述算法进行了进一步的处理,公式为:(1.4)评估所提出的信息运维故障日志特征选择算法的性能;步骤2)提出了一种基于相关程度与区分程度的特征选择算法。该算法利用特征选择的四个基本信息要素,把特征对于类别的相关程度表示出来,同时也把特征对于类别的区分程度表示出来;(2.1)根据特征,计算出t
k
对类别c
i
的区分能力为:(2.2)特征t
k
与某个类别c<...
【专利技术属性】
技术研发人员:吕洪波,郝成亮,马旭东,张凯,樊家树,
申请(专利权)人:国网吉林省电力有限公司信息通信公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。