特征选择制造技术

技术编号:2925569 阅读:238 留言:0更新日期:2012-04-11 18:40
提供了一种可应用于特征的前向选择和后向消除的特征选择方法。所述方法基于每一个分类器的ROC曲线下的面积的估算值选择特征作为分类器的输入。示例性应用是家庭护理或者患者监护、身体传感器网络、环境监控、图像处理和调查问卷设计。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及作为分类器的输入的特征的选择。具体地,而不是唯一地, 这些特征表示例如家庭护理环境中的传感器网络中的传感器的输出。
技术介绍
在监督式机器学习(supervised machine learning)领域中用于维数 降低的技术已经受到了广泛的关注。总体来说,存在两组方法特征提取 和特征选择。在特征提取中,给定的特征被变换到较低维数的空间中,同 时使信息的损失最小。 一种特征提取技术是主成分分析(PCA ),该技术 将多个相关的变量变换为多个不相关的变量(或者i成为、)。另一方面, 对于特征选择,不创建新的特征。通过消除不相关和冗余的特征来降低维 数。不相关(或者冗余)的特征基本不提供关于目标概念的信息(或者不 提供新的信息)。特征选择的目的是通过消除不相关和冗余的特征来降低归纳系统的 复杂性。在机器学习领域中,为了减少计算成本和存储量以及提高预测的 准确性,这种技术正变得越来越重要。理论上,高维数模型比低维数模型 更准确。然而,推理系统的计算成本随着其维数的增加而急剧提高,因此, 需要根据总体计算成本来权衡准确性。另一方面,如果根据不充分的训练 数据建立高维数模型,则该模型的准确性可能劣化。在这种情况下,该模 型不能对信息结构提#4^人满意的描述。理解未知系统的固有结构所需的 训练数据的量随着其维数的增大呈指数式地增大。当学习算法由于不相关 的特征所导致的伪结构而变得混乱时,不准确的描述可能导致严重的过拟合(over-fitting)问题。为了获得在计算上容易处理的系统,需要消除对 总体性能几乎没有贡献的含信息较少的特征。此外,收集大量的样;Mt据 的高成本使得期望获得高效率的选择策略来去除不相关和冗余的特征。在机器学习中,经常可以将特征选择方法划分为两组包装器 (wrapper)方式和过滤器(filter)方式,其通过特征选择和归纳算法之 间的关系来区分。包装器方式使用归纳算法的估算准确性来评价候选特征子集。而过滤器直接根据数据学习,并且独立于任何具体的归纳算法iMl 算。这种方法根据候选子集的信息内容就分类为目标概念来评价候选子集的"适合度(goodness)"。未针对归纳算法和"训练数据集的信息结构 之间的特定相互来调节过滤器。在给定足够特征的情况下,基于过滤器的 方法尝试以保持尽可能多的关于数据的基本结构的信息的方式来消除特 征。上述问题变得明显的一个示例性应用领域是在家庭护理环境中监护 患者。通常,这种监护涉及分析从大量传感器收集的数据,包括患者佩带 的活动传感器(例如加速度传感器)、监视患者的生理状态(例如体温、 血糖水平、心率和呼吸频率)的传感器、以及分布在家中的传感器,例如 可以是动作检测器、或者是可以检测灯的打开和关闭或者门的打开和关闭 的电开关。可能需^4f对每一个患者分别设置家庭护理监护系统。如果要 在短时间内配置家庭护理监护系统,则收集大量训练数据用于训练接收监 护系统的输出的分类器无论如何是不可能的。因此,在家庭护理监护的情 况下尤其希望高效的为分类器选择输入特征的算法。
技术实现思路
在本专利技术的第一方面,提供了根据权利要求1所述的自动选择特征作 为分类器的输入的方法。优选地,通过使用分类器的接收器操作特性曲线 下的面积,在选择中使用直接表示分类性能的度量。优选地,估算是基于分类器的所有类的期望曲线下面积。特征选择可 以从所有可获得的特征的满集开始,并且通过从该集合中重复去除特征来 减小特征的数量。可选地,算法可以从空的特征集开始,并且重复增加特 征。去除(增加)的特征是使估算的变化最小(最大)的特征。优选地,针对每一个特征,可以通过考虑该特征以及其余特征中的一 部分而不是全部,但只杏遞其中的选择来估算变化。这降低了算法的计算 要求。然后,可以根据所选定的其余特征和所述特征的期望曲线下面积与 没有所述特征的而只有所挑选的其余特征的期望曲线下面积的差来计算 变化。所述方法可以包括:计算所述子集中所述特征和其余每一个特征的微 分度量;并选定预定数量的具有最小微分度量的其它特征进行所述选择。 所述微分度量可以是所述特征的期望曲线下面积与所述和一个其余特征的期望曲线下面积的差。优选地,可以在进行任何特征选择之前,对集合 中的所有特征预先计算所述微分度量。这进一步提高了计算效率,因为仅 在算法开始时需要重新计算一次所述微分度量。可以省略(或者增加)特 征,直到分类所使用的子集中的特征的数量等于预定阈值为止,或者可选 地,直到达到期望曲线下面积的阈值为止。优选从一个或多个传感器的一个或多个通道得出所述特征。例如传感 器可以包括测量表示空气、水或者土壤质量的量的环境传感器。可选地, 可以通过图像处理从数字图像得出特征,例如,所述特征表示图像中的紋理朝向、图案或者色彩。 一个或多个特征可以表示生物标记(biomarker) 的活动,生物标记的活动又可以表示存在还是不存在与所述生物标^^目关 联的目标,例如,核酸、肽、蛋白质、病毒或者抗原。在本专利技术的又一个方面,提供了根据权利要求20所述的定义传感器 网络的方法。所述方法使用上述算法。优选地,从所述网络中去除与该算 法没有选择的特^目对应的传感器。本专利技术还延伸到根据权利要求22所述的传感器网络、根据权利要求 23所述的家庭护理或者患者监护环境和根据权利要求24所述的身体传感 器网络。本专利技术还延伸到根据权利要求25所述的系统、根据权利要求26 所述的计算机程序和根据权利要求27所述的计算机可读介质或者数据 流。因此,下面描述的实施例适合于在普通的多传感器环境中使用,尤其 适合于普通的患者和/或健M护以及"fi4健康护理。附图说明现在,参考附图,通过示例描述本专利技术的实施例,其中 图1示出用于特征选择的模型;图2示出用于选择三个特征的集合的特征作为输入特征的搜索空间; 图3示出根据本专利技术实施例的特征选择和ROC曲线; 图4是多个特征集的可分辨性的图形表示; 图5是后向消除算法的流程图; 图6是前向选择算法的流程图;图7是近似后向/前向算法的流程图;以及 图8示出身体传感器网络。具体实施例方式总的来说,用于特征选择的贝叶斯框架(BFFS)与基于贝叶斯理论 和接收器操作特性(ROC)分析的特征选择算法的发展有关。所提出的 方法具有以下特性BFFS完全基于特征的统计分布,因此不偏向具体的模型 特征选择标准基于ROC的期望曲线下面积(AUC )。因此,在理想 分类器的灵lt度和特异性(specificity)方面,得出的特征可以产生 最佳的分类性能。在贝叶斯推理中,有理观测器使用后验概率来进行决策,因为有理观 测器对可获得的信息进行总结。我们可以基于条件独立性来定义相关度 、measure of relevance )。也就是说,给定特征集/)-(/f),l^/^V山如果 对于任意指定》每当/V(/",/2)M),都有/V(j |/))= /V(y |/),/2)) (1)那么两个特征集^ (分类标签)和/2)={/;(2),1^^¥2}是条件独立或者不相关 的(也就是说,给定/1),则/2)不提供进一步信息)。在本文中,我们使用符号10,/2)|产)表示给定产时y和产的条件独 立性。不失一般性,假设/"、/"和j;是不相交的。最佳特征本文档来自技高网
...

【技术保护点】
一种自动选择特征作为用于多个类的分类器的输入的方法,包括:针对分类器的每一个类计算接收器操作特性曲线下的面积的估算值;以及根据所述估算值选择所述特征。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:杨广中胡晓鹏
申请(专利权)人:皇家创新有限公司
类型:发明
国别省市:GB[英国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1