【技术实现步骤摘要】
本专利技术涉及一种基于互信息估计的属性选择方法,用于从一系列属性集合中选择关键属性。
技术介绍
通过剔除与被预测变量无关的属性列,并在相关性较强的属性集合中,选出与被预测变量之间最相关的一组最小的属性列集合,主属性选择方法减少了计算过程复杂度,提升了计算效率和计算的准确度。因而,主属性选择算法有着相当普遍的应用。 在众多的主属性选择算法中,有一类选择算法是基于信息熵相关理论实现的。信息熵表述的是描述某一事件所需的平均信息量大小,是该事件不确定性的一种度量。互信息则描述的是一个事件中包含另一事件的信息量。信息论基本原理表明,互信息值越大,则表明两个事件的相关性越大。因而,可以通过度量被预测变量与属性子集之间的互信息,设计属性选择算法。两个单列属性间的互信息易于计算,然而由于计算复杂度较高、计算精准度较低等原因,单列属性与属性集合间的互信息计算非常困难。因而实际用互信息做属性选择的时候,往往采用估计的方式,估算待选属性与已选属性集之间的互信息。现有的估算方法一般遵从“相关度-冗余度”的模型。其中,“相关度”指待选属性与被预测变量之间的互信息,一般可通过直接计算的方式求得。“ ...
【技术保护点】
一种基于互信息估计的属性选择方法,其特征在于,该方法包括以下步骤:1)提供一数据集D=F∪{T};其中,F={f1,f2,…,fn}为属性集,其中,n为属性的个数,T为目标属性;从F中选择属性子集S={s1,s2,…,sk}k≤n,其中,k为属性选择算法保留的属性个数,所述属性子集S用于模型的输入,令待选属性子集R满足F=S∪R,R={r1,r2,…,rn?k},k为;选择第一个属性,得S={s1},对于R中的每个属性,计算其与S的互信息,根据算法条件选取合适的属性r,得S=S∪{r},R=R/{r};重复步骤2直至满足终止条件;2)当|S|≥2时,待选属性r与S之间的互信 ...
【技术特征摘要】
1.一种基于互信息估计的属性选择方法,其特征在于,该方法包括以下步骤 1)提供一数据集D=FU {T};其中,F={fi,f2,…,fn}为属性集,其中,η为属性的个数,T为目标属性;从F中选择属性子集S=Is1, S2, -,SkIk^ η,其中,k为属性选择算法保留的属性个数,所述属性子集S用于模型的输入,令待选属性子集R满足F=S U R, R={ri,r2,…,rn_J,k为;选择第一个属性,得S=IsJ,对于R中的每个属性,计算其与S的互信息,根据算法条件选取合适的属性r,得S=S U {r},R=R/ Ir};重复步骤2直至满足终止条件; 2)当|S|彡2时,待选属性r与S之间的互信息难以计算,在此称为不可计算部分;而r与S中任意元素s之间的互信息MI (r;s)计算相对容...
【专利技术属性】
技术研发人员:刘琴,朱宏明,杨筱雯,肖葭凯,石仕海,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。