当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于互信息量的改进特征评价方法技术

技术编号:19009461 阅读:27 留言:0更新日期:2018-09-22 09:17
一种基于互信息量的改进特征评价方法:输入一个特征子集维度为m的数据,每个特征包含有若干个样本;计算特征子集的相关性,即特征子集中所有特征与目标类别标签的互信息量之和;计算特征子集中特征之间的冗余性,即特征子集中所有特征之间的互信息量的平均值;计算特征子集的评估值,即是特征子集的评估值。本发明专利技术的一种基于互信息量的改进特征评价方法,针对复杂信号的特征有效性评估问题,结合实际应用,既考虑冗余性又考虑相关性,有效解决了目前已有特征选择评估准则中存在的难以有效衡量特征有效性问题,更高效的完成特征选择任务,最终提高数据挖掘与模式识别的效率。

An improved feature evaluation method based on mutual information

An improved feature evaluation method based on mutual information is proposed, in which data with dimension m of a feature subset is input and each feature contains several samples; correlation of feature subsets is calculated, i.e. the sum of mutual information between all features in the feature subset and the label of the target class; and redundancy between features in the feature subset is calculated, i.e. The average value of mutual information between all features in a feature subset; the evaluation value of a feature subset is calculated, that is, the evaluation value of a feature subset. An improved feature evaluation method based on mutual information is proposed. Aiming at the problem of feature validity evaluation of complex signals, combined with practical application, the method considers both redundancy and correlation, and effectively solves the problem that it is difficult to effectively measure the feature validity in the existing feature selection evaluation criteria. Finally, it improves the efficiency of data mining and pattern recognition.

【技术实现步骤摘要】
一种基于互信息量的改进特征评价方法
本专利技术涉及一种特征评价方法。特别是涉及一种针对特征选择中无法高效评估复杂信号特征有效性的基于互信息量的改进特征评价方法。
技术介绍
1、特征选择的概念随着数据采集与存储技术的发展,高维数据广泛存在于自然界,金融学,工业,生物医学等诸多领域,其中在多个特征之间包含复杂的非线性关系。从高维数据中找到潜在的有用信息和建立预测模型已经成为数据挖掘和知识发现的最重要的方面之一。虽然高维数据可以提供丰富的信息,但随着数据集的维数和规模的不断增大,建立精确的预测模型越来越困难。同时,不相关冗余特征的存在很容易掩盖重要特征的影响,对建模有负面影响。因此,针对这些问题,包括特征提取和特征选择在内的降维方法备受关注。特征选择是从原始数据集中选择一个最优的特征子集的过程。它是模式识别领域的一个关键问题,被广泛应用于处理高维数据集。一个典型的特征选择方法包括四个基本步骤,它的过程被分为:生成过程,评估函数,停止准则和验证过程。生成过程是一个搜索过程,评估函数是评估正在检查的子集,停止准则是决定特征选择何时停止,验证过程是检查子集是否有效。目前对特征选择方法的研究主要集中于搜索策略和评价准则。2、评价准则评价准则是定义一个适当的评估函数来为一组特征进行评分,用于衡量特征区分不同类别标签的识别能力。根据评估标准,所有特征选择方法可以分为两大类:过滤式(Filter)和封装式(Wrapper)。过滤式利用独立的评价准则在给定分类器的学习过程被执行之前选择特征的适当子集。过滤式的评价准则可以分为四类:距离,信息,依赖性和一致性。封装式使用给定分类器(即分类器错误率度量)的性能作为评估指标。过滤式选择算法在计算上比封装式更有效率,因为它们使用可快速测试的评价准则来衡量所选特征的有效性。此外,一个有效的过滤式可以获得适合不同学习算法的特征子集。然而,这也可能导致非最佳的特征子集,特别是当特征依赖于分类器时。封装式虽然可以获得较好的性能,但是算法本身效率较低,并容易出现过拟合现象。因此在需要处理大数据集的实际应用中,常用过滤式特征选择来选取合适的特征子集。在过滤式特征选择中,由于互信息量能在没有先验知识情况下测量特征间的线性和非线性依赖关系,其在特征选择问题中得到了广泛的应用。因此互信息量常作为特征子集好坏的评价准则。互信息(MutualInformation,MI)是信息论中的一个基本概念,它表示了两个离散变量之间拥有共同信息的含量,可以用于评估这两个变量之间的相似程度和依赖关系。对于两个离散变量X和Y,假设它们的边缘概率分布为p(x)和p(y),则可以通过下面的公式计算它们之间的互信息I(X;Y):其中,p(x,y)是x和y的联合概率分布。通常情况下,都是通过信息熵来计算两个变量之间的互信息,计算公式如下:I(X;Y)=H(X)-H(X|Y)其中,H(X)表示变量X的信息熵,它的计算公式如下:H(X|Y)表示X关于Y的条件熵,它的计算公式如下:互信息可以用于表示两个变量之间的依赖程度,当X和Y完全独立时,它们之间的互信息值为0,当X和Y之间的相似程度越大,互信息的值就越大。数据一般存在强相关、弱相关和无关三种特征,除此之外特征之间也存在相关性,这些特征称为冗余特征。特征选择的目的就是要搜索出具有强相关性和具有弱相关性但是无冗余的特征。因此实现最大相关性和最小冗余的特征选择是一种有效的方法,此处的相关性和冗余性分别用特征与目标类别标签相关性和特征间相关性表示。由于互信息可以表示两个变量之间的相似程度,所以可以用于衡量相关性和冗余性的标准。目前基于互信息量的特征选择算法包括BIF、MIFS、MIFSU和mRMR等。3、最小冗余最大相关性(mRMR)最小冗余最大相关性(mRMR)是基于互信息量的标准,通过消除不相关和冗余的特征来选择所有的特征。最小冗余最大相关度(mRMR)评估准则,如下所示:φ=D(S;L)-R此处D(S,L)表示特征子集S与目标类别标签相关性,R表示特征子集S中特征间的冗余性,|S|是特征子集S的维度,Si和Sj分别表示第i和第j个特征,L表示目标类别标签,I(Si|L)表示该第i个特征和目标类别标签的互信息量,I(Si|Sj)表示第i个特征和第j个特征之间的互信息量。φ的值越大,说明这个特征子集中的特征与目标类别标签相似度高且内部之间的相似度低,φ就是特征选择中其中一种评价准则。目前已有的基于互信息量的评价准则在实际应用中存在无法高效评估复杂信号特征有效性。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够有效提升特征选择效率的基于互信息量的改进特征评价方法。本专利技术所采用的技术方案是:一种基于互信息量的改进特征评价方法,包括如下步骤:1)输入一个特征子集维度为m的数据,每个特征包含有若干个样本;2)计算特征子集的相关性,即特征子集中所有特征与目标类别标签的互信息量之和,用D(S,L)表示,公式如下:D(S,L)=∑I(Si;L)Si表示特征子集中第i个特征,L表示目标类别标签,I(Si;L)表示特征子集中的第i个特征和目标类别标签的互信息量;3)计算特征子集中特征之间的冗余性,即特征子集中所有特征之间的互信息量的平均值,用R表示,公式如下:Si和Sj分别表示特征子集中的第i和第j个特征,I(Si;Sj)表示特征子集中的第i个特征和第j个特征之间的互信息量;4)计算特征子集的评估值EvaEva=D(S,L)-R其中,Eva是特征子集的相关性与冗余性的差值,这个值越大,说明对应的特征子集中的特征与目标类别标签相关性高,且特征子集中特征之间的相关性低,这个评估准则能够同时排除无关特征和冗余特征,最终计算的Eva的值就是特征子集的评估值。本专利技术的一种基于互信息量的改进特征评价方法,针对复杂信号的特征有效性评估问题,结合实际应用,既考虑冗余性又考虑相关性,有效解决了目前已有特征选择评估准则中存在的难以有效衡量特征有效性问题,更高效的完成特征选择任务,最终提高数据挖掘与模式识别的效率。具体实施方式下面结合实施例对本专利技术的一种基于互信息量的改进特征评价方法做出详细说明。本专利技术的一种基于互信息量的改进特征评价方法,包括如下步骤:1)输入一个特征子集维度为m的数据,每个特征包含有若干个样本;2)计算特征子集的相关性,即特征子集中所有特征与目标类别标签的互信息量之和,用D(S,L)表示,公式如下:D(S,L)=∑I(Si;L)Si表示特征子集中第i个特征,L表示目标类别标签,I(Si;L)表示特征子集中的第i个特征和目标类别标签的互信息量;3)计算特征子集中特征之间的冗余性,即特征子集中所有特征之间的互信息量的平均值,用R表示,公式如下:Si和Sj分别表示特征子集中的第i和第j个特征,I(Si;Sj)表示特征子集中的第i个特征和第j个特征之间的互信息量;4)计算特征子集的评估值EvaEva=D(S,L)-R其中,Eva是特征子集的相关性与冗余性的差值,这个值越大,说明对应的特征子集中的特征与目标类别标签相关性高,且特征子集中特征之间的相关性低,这个评估准则能够同时排除无关特征和冗余特征,最终计算的Eva的值就是特征子集的评估值。下面给出具体实例:1)若给定一个维度为5的特征子集,其中每个本文档来自技高网
...

【技术保护点】
1.一种基于互信息量的改进特征评价方法,其特征在于,包括如下步骤:1)输入一个特征子集维度为m的数据,每个特征包含有若干个样本;2)计算特征子集的相关性,即特征子集中所有特征与目标类别标签的互信息量之和,用D(S,L)表示,公式如下:D(S,L)=∑I(Si;L)Si表示特征子集中第i个特征,L表示目标类别标签,I(Si;L)表示特征子集中的第i个特征和目标类别标签的互信息量;3)计算特征子集中特征之间的冗余性,即特征子集中所有特征之间的互信息量的平均值,用R表示,公式如下:

【技术特征摘要】
1.一种基于互信息量的改进特征评价方法,其特征在于,包括如下步骤:1)输入一个特征子集维度为m的数据,每个特征包含有若干个样本;2)计算特征子集的相关性,即特征子集中所有特征与目标类别标签的互信息量之和,用D(S,L)表示,公式如下:D(S,L)=∑I(Si;L)Si表示特征子集中第i个特征,L表示目标类别标签,I(Si;L)表示特征子集中的第i个特征和目标类别标签的互信息量;3)计算特征子集中特征之间的冗余性,即特征子集中所有特征之...

【专利技术属性】
技术研发人员:张涛丁碧云赵鑫
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1