当前位置: 首页 > 专利查询>清华大学专利>正文

用于数据挖掘的具有冗余剔除能力的混合特征选择方法技术

技术编号:2838724 阅读:545 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种用于数据挖掘的具有冗余剔除能力的混合特征选择方法,属于数据挖掘技术领域。该法对输入属性集合F进行前进搜索,用基于帕森窗的统一型互信息估计方法计算信息增益比(见式1)来选择特征属性,对已选属性集合S进行后退搜索,用基于帕森窗的统一型互信息估计法计算信息减少值(见式2)来动态剔除冗余属性。本发明专利技术方法,统称为PGFB法,其优点是:能够直接处理目标属性为连续属性的回归问题;能够直接处理输入属性为离散、连续属性混合的情况;能够动态剔除冗余属性,得到全局最优解。采用本方法从数据表大量候选属性中选出少量特征属性作为数据挖掘的输入属性,不但可以提高数据挖掘的速度,还可提高数据挖掘的精度。

【技术实现步骤摘要】

本专利技术涉及一种,属于数据挖掘

技术介绍
数据挖掘致力在海量的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。目前已经有不少基于计算机的数据挖掘(或知识发现)系统应用到电力、金融、商业、军事、医药、生命等领域。一个典型的基于计算机的数据挖掘过程由准备数据和预处理、数据挖掘、结果分析与知识应用等步骤组成。在实际应用中,数据表中每一列称为一个属性。特征选择是数据挖掘重要的预处理步骤,从高维属性空间中选取少量主要属性,作为数据挖掘的输入属性,可以有效提高数据挖掘的精度和效率。(data mining)或知识发现(knowledge discovery in database)中的特征选择(featureselection)。本申请人曾于2005年8月26日申请的、申请号为200510092983.7、专利技术名称为“数据挖掘中一种混合互信息的特征选择方法”,考虑属性能够提供的新信息量,还兼顾属性与类别标号属性的相关度,但它具有大多数特征选择方法共有的缺点不具备很好的剔除冗余属性的能力,在选择过程中添加了冗余量,造成数据挖掘精度和简易度的降低,尤其当第一个被选择属性不够好时,将导致特征选择过程的失败。
技术实现思路
本专利技术的目的是提出一种,针对已有技术的缺陷,采用一种基于Parzen窗的统一型互信息估计方法(以下简称PG法)估计互信息,用前进后退(以下简称FB)法搜索最优特征集合,既可以处理目标属性为离散属性的分类问题,也可以直接处理目标属性为连续属性的回归问题。本专利技术提出的,包括(1)建立一个由待处理数据的N个输入属性组成的集合F,所述的待处理数据含有N个输入属性和一个目标属性C,所述的输入属性为连续属性或离散属性,建立一个空集合S0,用以存放从集合F中选择的属性;(2)对上述集合F中的每个输入属性fi,用基于帕森窗的统一型互信息估计法计算第一互信息值I(C;S0∪{fi}),其中S0∪{fi}为向上述空集合S0中增加fi后的集合,并从计算的互信息值中得到为待处理数据分类贡献最大的输入属性fj,即,使I(C;S0∪{fi})值为最大的属性fj;(3)计算上述输入属性fj的信息增益比α′,α′=I(C;S0∪{fi})-I(C;S0)H(C),]]>当满足α′>α+,或满足I(C;S0)/H(C)<ε时,则在上述空集合S0中添加属性fj,并将S0记为Sa1,并在集合F中删除fj,其中α+和ε为设定的信息增益值,H(C)为目标属性C的熵;(4)对上述集合Sa1中的每个属性si,用基于帕森窗的统一型互信息估计方法计算第二互信息值I(C;Sa1\{si}),其中Sa1\{si}表示在集合Sa1中删除属性si后的集合,并计算信息减少值α″,α′′=I(C;Sa1)-I(C;Sa1\{si})H(C),]]>将α″与α-的大小进行判断,若满足α″<α-,则从集合Sa1中删除si,在集合F中添加si,若不满足,则不操作,新建一个与判断后的Sa1相同的集合,记为Sb1,其中α-为设定的信息减少值;(5)重复上述步骤(2)(3)(4),每次重复时,步骤(2)中,使Sbi替换S0,步骤(3)中,使Sa(i+1)替换Sai,步骤(4)的集合记为Sb(i+1),直到步骤(3)中不再有属性fj添加到Sai中,停止循环,记最后得到的Sbi为Slast;(6)对于每一次重复得到的集合Sbi,用基于帕森窗的统一型互信息估计方法计算第三互信息值I(C;Si)和信噪比SNRatio(C,Si)=I(C;Si)H(Si)-I(C;Si),]]>其中H(Si)为集合Si的熵,若步骤(1)集合F中的N个属性为离散属性,则选择使I(C;Si)≥I(C;Slast)且信噪比最大的集合Si作为选择的特征属性集合;若第(1)步中F中的N个属性不全是离散属性,则选择使I(C;Si)≥I(C;Slast)且H(Si)最小的集合Si作为选择的特征属性集合。本专利技术提出的,统称为PGFB法,其优点是能够直接处理目标属性为连续属性的回归问题;能够直接处理输入属性为离散、连续属性混合的情况;能够动态剔除冗余属性。采用本方法从数据表大量候选属性中选出少量特征属性作为数据挖掘的输入属性,不但可提高数据挖掘的速度,还可提高数据挖掘的精度。很好地克服了PG-HMI剔除冗余等方面的缺陷。具体实施例方式本专利技术提出的,包括(1)建立一个由待处理数据的N个输入属性组成的集合F,所述的待处理数据含有N个输入属性和一个目标属性C,所述的输入属性为连续属性或离散属性,建立一个空集合S0,用以存放从集合F中选择的属性;(2)对上述集合F中的每个输入属性fi,用基于帕森窗(Parzen Window).的统一型互信息估计法计算第一互信息值I(C;S0∪{fi}),其中S0∪{fi}为向上述空集合S0中增加fi后的集合,并从计算的互信息值中得到为待处理数据分类贡献最大的输入属性fj,即,使I(C;S0∪{fi})值为最大的属性fj;(3)计算上述输入属性fj的信息增益比α′,α′=I(C;S0∪{fi})-I(C;S0)H(C),]]>当满足α′>α+,或满足I(C;S0)/H(C)<ε时,则在上述空集合S0中添加属性fj,并将S0记为Sa1,并在集合F中删除fj,其中α+和ε为设定的信息增益值,H(C)为目标属性C的熵;(4)对上述集合Sa1中的每个属性si,用基于帕森窗(Parzen Window)的统一型互信息估计方法计算第二互信息值I(C;Sa1\{si}),其中Sa1\{si}表示在集合Sa1中删除属性si后的集合,并计算信息减少值α″,α′′=I(C;Sa1)-I(C;Sa1\{si})H(C),]]>将α″与α-的大小进行判断,若满足α″<α-,则从集合Sa1中删除si,在集合F中添加si,若不满足,则不操作,新建一个与判断后的Sa1相同的集合,记为Sb1,其中α-为设定的信息减少值;本专利技术方法中,将上述步骤(3)和(4)称为前进后退(以下简称FB)搜索法,以下将详细介绍。(5)重复上述步骤(2)(3)(4),每次重复时,步骤(2)中,使Sbi替换S0,步骤(3)中,使Sa(i+1)替换Sai,步骤(4)的集合记为Sb(i+1),直到步骤(3)中不再有属性fj添加到Sai中,停止循环,记最后得到的Sbi为Slast;(6)对于每一次重复得到的集合Sbi,用基于帕森窗(Parzen Window)的统一型互信息估计方法计算第三互信息值I(C;Si)和信噪比SNRatio(C,Si)=I(C;Si)H(Si)-I(C;Si),]]>其中H(Si)为集合Si的熵,若步骤(1)集合F中的N个属性为离散属性,则选择使I(C;Si)≥I(C;Slast)且信噪比最大的集合Si作为选择的特征属性集合;若第(1)步中F中的N个属性不全是离散属性,则选择使I(C;Si)≥I(C;Slast本文档来自技高网...

【技术保护点】
一种用于数据挖掘的具有冗余剔除能力的混合特征选择方法,其特征在于该方法包括以下步骤: (1)建立一个由待处理数据的N个输入属性组成的集合F,所述的待处理数据含有N个输入属性和一个目标属性C,所述的输入属性为连续属性或离散属性,建立一 个空集合S↓[0],用以存放从集合F中选择的属性;(2)对上述集合F中的每个输入属性f↓[i],用基于帕森窗的统一型互信息估计法计算第一互信息值I(C;S↓[0]U{f↓[i]}),其中S↓[0]U{f↓[i]}为向上述空集合S↓[ 0]中增加f↓[i]后的集合,并从计算的互信息值中得到为待处理数据分类贡献最大的输入属性f↓[j],即,使I(C;S↓[0]U{f↓[i]})值为最大的属性f↓[j];(3)计算上述输入属性f↓[j]的信息增益比α′,***,当满足 α′>α↓[+],或满足I(C;S↓[0])/H(C)<ε时,则在上述空集合S↓[0]中添加属性f↓[j],并将S↓[0]记为S↓[a1],并在集合F中删除f↓[j],其中α↓[+]和ε为设定的信息增益值,H(C)为目标属性C的熵; (4)对上述集合S↓[a1]中的每个属性s↓[i],用基于帕森窗的统一型互信息估计方法计算第二互信息值I(C;S↓[a1]\{s↓[i]}),其中S↓[a1]\{s↓[i]}表示在集合S↓[a1]中删除属性s↓[i]后的集合,并计算信息减少值α″,***,将α″与α↓[-]的大小进行判断,若满足α″<α↓[-],则从集合S↓[a1]中删除s↓[i],在集合F中添加s↓[i],若不满足,则不操作,新建一个与判断后的S↓[a1]相同的集合,记为S↓[b1],其中α↓[-]为设定的信息减少值;(5)重复上述步骤(2)(3)(4),每次重复时,步骤(2)中,使S↓[bi]替换S↓[0],步骤(3)中,使S↓[a(i+1)]替换S↓[ai],步骤(4)的集合记为S↓[b(i+1)],直到步骤(3)中不再有属性f↓ [j]添加到S↓[ai]中,停止循环,记最后得到的S↓[bi]为S↓[last];(6)对于每一次重复得到的集合S↓[bi],用基于帕森窗的统一型互信息估计方法计算第三互信息值I(C;S↓[i])和信噪比***,其中H(S↓[i]) 为集合S↓[i]的熵,若步骤(1)集合F中的N个属性为离散属性,则选择使I(C;S↓[i])≥I(C;S↓[last])且信噪...

【技术特征摘要】

【专利技术属性】
技术研发人员:孙宏斌王皓张伯明吴文传王康
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1