当前位置: 首页 > 专利查询>同济大学专利>正文

基于互信息估计的属性选择方法技术

技术编号:8271520 阅读:163 留言:0更新日期:2013-01-31 03:46
本发明专利技术提供一种基于互信息估计的主属性选择方法。方法首先通过计算数据集两两属性间的互信息,得到互信息矩阵。然后通过调整参数设置,利用互信息矩阵中两两之间互信息对待选属性与已选属性子集之间的互信息进行估计。根据互信息估值,依次选择待选属性,从而得到一系列备选属性子集。最后,发明专利技术利用交叉验证的方式,将得到的属性子集系列用于成本预测,并将预测结果最好的子集作为最终选择的主属性集合。

【技术实现步骤摘要】
本专利技术涉及一种基于互信息估计的属性选择方法,用于从一系列属性集合中选择关键属性。
技术介绍
通过剔除与被预测变量无关的属性列,并在相关性较强的属性集合中,选出与被预测变量之间最相关的一组最小的属性列集合,主属性选择方法减少了计算过程复杂度,提升了计算效率和计算的准确度。因而,主属性选择算法有着相当普遍的应用。 在众多的主属性选择算法中,有一类选择算法是基于信息熵相关理论实现的。信息熵表述的是描述某一事件所需的平均信息量大小,是该事件不确定性的一种度量。互信息则描述的是一个事件中包含另一事件的信息量。信息论基本原理表明,互信息值越大,则表明两个事件的相关性越大。因而,可以通过度量被预测变量与属性子集之间的互信息,设计属性选择算法。两个单列属性间的互信息易于计算,然而由于计算复杂度较高、计算精准度较低等原因,单列属性与属性集合间的互信息计算非常困难。因而实际用互信息做属性选择的时候,往往采用估计的方式,估算待选属性与已选属性集之间的互信息。现有的估算方法一般遵从“相关度-冗余度”的模型。其中,“相关度”指待选属性与被预测变量之间的互信息,一般可通过直接计算的方式求得。“冗余度”则指待选属性与已选属性集之间的互信息。现有的冗余度估计方法大多是此种方法的变形待选属性列与已选属性集中元素的互信息。常见的变形为,待选属性列与已选属性集中元素互信息的几何平均。事实上,信息论的基本理论证明,待选属性列与已选属性集中元素互信息的几何平均是一个确定的值,是被预测变量与已选属性集间互信息值的一部分。现有方法通过在该确定值上添加系数的方式调整冗余度的值,有着明显的缺陷。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于互信息估计的属性选择方法,用于解决现有技术中单列属性与属性集合间的互信息计算非常困难的问题。本专利技术的目的在于针对单列属性与属性集合间互信息难以计算的问题,将该计算问题化为可计算部分和不可计算部分,通过对不可计算部分进行估计,实现对两者互信息值的估算。本专利技术采用如下技术方案一种基于互信息估计的属性选择方法,其特征在于,该方法包括以下步骤I)提供一数据集D=F U {T};其中,F=If1, f2, - ,fj为属性集,其中,η为属性的个数,T为目标属性;从F中选择属性子集S=Is1, S2,…,sk}k < η用于模型的输入,其中,k为属性选择算法保留的属性个数,令待选属性子集R满足F=S U R, R=Ir1, r2,…,rn_k};选择第一个属性,得S=IsJ,对于R中的每个属性,计算其与S的互信息,根据算法条件选取合适的属性r,得S=S U {r},R=R/{r};重复步骤2直至满足终止条件;2)当|S|彡2时,待选属性r与S之间的互信息难以计算,在此称为不可计算部分;而r与S中任意元素s之间的互信息MI (r;s)计算相对容易,在此称为可计算部分;3)将 MI(r;S)的定义为 MI (r; S) = β SsesMI (r,S,),S,=S/{s};其中,β为用户输入参数,用于调整待选属性!■与已选属性子集S之间冗余度在属性选择公式中的权重;4)设置训练参数β,根据上述方法求得待选属性r与已选属性集S的互信息MI (r; S),选取使得MI (r; T) -MI (r; S)值最大的属性r,添加到已选属性集中,并从待选属性集中删除; 分别得到已选属性集序列S1, S2。优选地,该方法进一步包括验证步骤,即利用实验数据进行交叉验证,选出结果最佳的属优选地,估算待选属性与已选属性集合子集间互信息采用递归的方式。为达上述目的,本方法首先计算可计算部分的值,然后调整参数的方式,得到待选属性与已选属性集合子集间互信息的估值。其中,待选属性列与已选属性集合子集间互信息的估算以递归的方式进行。接着,根据可计算部分值与估计值部分的和,选出一系列备选的属性子集。最后,通过具体的验证方法,利用实验数据进行交叉验证,选出结果最佳的属性子集。附图说明图I为本专利技术的流程示意图.具体实施例方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。请参阅图I。需要说明的是,本实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。以下通过具体图例说明本专利技术的实施方式,所属领域的普通技术人员可由本说明书所揭示的内容轻易地了解本专利技术的其他优点与功效。本专利技术亦可通过其他不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。图I中所示,首先根据待选属性f计算出互信息中可计算的部分,然后对f与已选属性集合S子集的互信息进行估递归估算。在满足终止条件时,递归结束并返回结果。基于互信息(Mutual Information,记为MI)的属性选择算法可概括表述为对于数据集D=F U-,fn}为属性集,其中,η为属性的个数,T为目标属性。利用属性之间的互信息关系,从F中选择合适的属性子集S=Is1, S2, -,SkIk^ η用于模型的输入。其中,k为属性选择算法保留的属性个数,令待选属性子集R满足F=S U R,R={ri,r2^··,rn-lJ。典型的基于互信息的选择算法步骤分为1)S为空集,根据不同的算法,选择第一个属性,得S={Sl};2)对于R中的每个属性,计算其与S的互信息,根据算法条件选取合适的属性r,得 S=S U {r},R=R/Ir};3)重复步骤2直至满足终止条件。·上述第2步中,当|S|彡2时,待选属性r与S之间的互信息难以计算,在此称为不可计算部分;而r与S中任意元素s之间的互信息MI (r; s)计算相对容易,在此称为可计算部分。本方法根据数学公式推导,将MI (r;S)的定义为MI (r; S) = β Σ seSMI (r,S’),S’=S/{s};其中,β为用户输入参数,用于调整待选属性!■与已选属性子集S之间冗余度在属性选择公式中的权重。设置训练参数β,根据上述方法求得待选属性r与已选属性集S的互信息MI (r; S),选取使得MI (r; T) -MI (r; S)值最大的属性r,添加到已选属性集中,并从待选属性集中删除。以此方法分别得到已选属性集序列S1, S2等等。本方法将数据集分为训练数据集和测试数据集。利用测试数据集,将步骤4中的属性序列作为输入参数传入到训练模型中,选取结果最好的属性集作为属性选择的结果。具体来说,待选属性与被预测变量之间的互信息可以直接通过计算得到。但由于计算复杂度较大,待选属性与已选属性子集之间的互信息通过估计的方式实现。一般使用待选属性与已选属性子集元素间互信息值的几何平均或和的部分值。本专利技术的特征在于,对待选属性与已选属性子集互信息进行估计时,除考虑待选属性与已选属性集合元素间的互信息外,还考虑到其与已选属性集合子集的关系本文档来自技高网...

【技术保护点】
一种基于互信息估计的属性选择方法,其特征在于,该方法包括以下步骤:1)提供一数据集D=F∪{T};其中,F={f1,f2,…,fn}为属性集,其中,n为属性的个数,T为目标属性;从F中选择属性子集S={s1,s2,…,sk}k≤n,其中,k为属性选择算法保留的属性个数,所述属性子集S用于模型的输入,令待选属性子集R满足F=S∪R,R={r1,r2,…,rn?k},k为;选择第一个属性,得S={s1},对于R中的每个属性,计算其与S的互信息,根据算法条件选取合适的属性r,得S=S∪{r},R=R/{r};重复步骤2直至满足终止条件;2)当|S|≥2时,待选属性r与S之间的互信息难以计算,在此称为不可计算部分;而r与S中任意元素s之间的互信息MI(r;s)计算相对容易,在此称为可计算部分;3)将MI(r;S)的定义为MI(r;s)=βΣs∈SMI(r;S’),S’=S/{s};其中,β为用户输入参数,用于调整待选属性r与已选属性子集S之间冗余度在属性选择公式中的权重;4)设置训练参数β,根据上述方法求得待选属性r与已选属性集S的互信息MI(r;S),选取使得MI(r;T)?MI(r;S)值最大的属性r,添加到已选属性集中,并从待选属性集中删除;分别得到已选属性集序列S1,S2。...

【技术特征摘要】
1.一种基于互信息估计的属性选择方法,其特征在于,该方法包括以下步骤 1)提供一数据集D=FU {T};其中,F={fi,f2,…,fn}为属性集,其中,η为属性的个数,T为目标属性;从F中选择属性子集S=Is1, S2, -,SkIk^ η,其中,k为属性选择算法保留的属性个数,所述属性子集S用于模型的输入,令待选属性子集R满足F=S U R, R={ri,r2,…,rn_J,k为;选择第一个属性,得S=IsJ,对于R中的每个属性,计算其与S的互信息,根据算法条件选取合适的属性r,得S=S U {r},R=R/ Ir};重复步骤2直至满足终止条件; 2)当|S|彡2时,待选属性r与S之间的互信息难以计算,在此称为不可计算部分;而r与S中任意元素s之间的互信息MI (r;s)计算相对容...

【专利技术属性】
技术研发人员:刘琴朱宏明杨筱雯肖葭凯石仕海
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1