一种融合相关系数与互信息的特征选择方法技术

技术编号:21606905 阅读:36 留言:0更新日期:2019-07-13 18:41
本发明专利技术提供一种融合相关系数与互信息的特征选择方法,首先,计算每个输入特征与难以检测参数间的相关系数,结合先验知识自适应确定相关系数阈值,选择高于相关系数阈值的特征构建相关系数候选特征集合;然后,计算每个输入特征与难以检测参数的互信息值,结合先验知识自适应确定互信息阈值,选择高于互信息值阈值的特征构建互信息候选特征集合;最后,取相关系数候选特征集合和互信息候选特征集合的交集作为新的候选特征集合,计算这些新的候选特征的相关系数值与互信息值的可调加权和作为综合评价值,结合先验知识自适应确定综合评价值阈值,选择高于综合评价值阈值的新的候选特征为最终选择的输入特征。

A feature selection method combining correlation coefficient and mutual information

【技术实现步骤摘要】
一种融合相关系数与互信息的特征选择方法本专利技术由科学技术部国家重点研发计划(No:2018YFC1900801)和国家自然科学基金(No:61573364,61873009)资助。
本专利技术属于工业控制
,尤其涉及一种融合相关系数与互信息的特征选择方法。
技术介绍
在复杂工业过程领域,受限于生产过程的机理复杂性和强耦合性,一些与产品的质量、效率和安全相关的关键过程参数,如磨矿过程中旋转磨机内部的钢球、物料和水的负荷大小,以及矿浆中矿石的粒度分布,通常被称为难以检测参数[1]。针对这些难以检测参数,某些可以依靠优秀的领域专家凭经验估计(如表征磨矿效率的磨机负荷),某些需要先人工定时采样、再在实验室化验分析得到(如表征磨矿质量的磨矿粒度和表征城市固废焚烧过程污染排放指标的二噁英浓度)。这些难以检测参数的人工估计和离线化验方法难以对复杂工业过程的运行优化与控制提供有效支撑[2]。采用离线历史数据建立这些难以检测参数的软测量模型是解决该问题的有效方法[3],即以控制系统实时采集的过程变量为输入特征和难以检测参数为预测输出。通常,工业过程数据存在强非线性和共线性,采用全部过程变量建模不仅增加了模型的复杂度,而且影响模型的建模精度和速度。通常,输入特征数量总是多于构建高效简洁模型、可物理阐释模型所需的数量。基于先验知识确定构建软测量模型所需输入特征的策略,对具有物理/化学等多学科综合复杂机理特性的工业过程难以奏效。特征选择算法能够有效地去除“无关特征”与“冗余特征”,并确保重要特征不丢失[4]。在消除“无关特征”方面,文献[5]对高维数据利用相关系数进行维数约简,缩短运算时间和建模复杂度;文献[6]提出基于相关系数的多目标半监督特征选择方法;文献[7]提出基于熵的相关系数的特征聚类方法对特征子集进行快速聚类;文献[8]基于单个特征与集合特征的特征值之差进行特征选择。研究表明,针对复杂的分类问题,类似于相关系数的线性方法难以描述模式和类别间的任意映射关系,互信息方法可有效克服这一缺点[9]。文献[10]提出互信息对特征间的相关性具有良好的表征能力;文献[11]提出基于互信息的多标签方法进行特征变量的删减;文献[12]将基于互信息的特征选择用于脉冲分类;文献[13]提出基于个体最佳互信息的特征选择方法;文献[14]提出基于条件互信息的特征选择方法,能够有效地对上一步所选择的特征进行评价。因此,相关系数与互信息都可以表征输入特征与难以检测参数(预测输出)间的相关性,并常用于特征选择[15,16];但两种方法在输入特征和预测输出的关系的视角上具有差异性,前者着重在线性关系,后者着重在非线性关系[17,18]。上述这些方法均未考虑如何进行自适应的特征选择。针对实际的复杂工业过程,高维输入特征与难以检测参数间的映射关系并不能采用单一的线性或非线性进行统一表征。
技术实现思路
本专利技术提供一种融合相关系数与互信息的特征选择方法,首先,计算每个输入特征与难以检测参数间的相关系数,结合先验知识自适应确定相关系数阈值,选择高于相关系数阈值的特征构建相关系数候选特征集合;然后,计算每个输入特征与难以检测参数的互信息值,结合先验知识自适应确定互信息阈值,选择高于互信息值阈值的特征构建互信息候选特征集合;最后,取相关系数候选特征集合和互信息候选特征集合的交集作为新的候选特征集合,计算这些新的候选特征的相关系数值与互信息值的可调加权和作为综合评价值,结合先验知识自适应确定综合评价值阈值,选择高于综合评价值阈值的新的候选特征为最终选择的输入特征。附图说明图1融合相关系数与互信息的特征选择策略;图2286个输入特征的相关系数的绝对值;图3286个输入特征的互信息值;图486个输入特征的综合评价值。具体实施方试本专利技术提供一种融合相关系数与互信息的特征选择方法,首先,计算每个输入特征与难以检测参数间的相关系数,结合先验知识自适应确定相关系数阈值,选择高于相关系数阈值的特征构建相关系数候选特征集合;然后,计算每个输入特征与难以检测参数的互信息值,结合先验知识自适应确定互信息阈值,选择高于互信息值阈值的特征构建互信息候选特征集合;最后,取相关系数候选特征集合和互信息候选特征集合的交集作为新的候选特征集合,计算这些新的候选特征的相关系数值与互信息值的可调加权和作为综合评价值,结合先验知识自适应确定综合评价值阈值,选择高于综合评价值阈值的新的候选特征为最终选择的输入特征。相关系数与互信息均可表示输入特征与预测输出间的相关性,但两者侧重点不同:前者侧重反映输入与输出之间的线性关系性,后者侧重反映输入与输出间的非线性关系。因此,针对具有综合复杂特征、机理未知的工业过程难以检测参数预测问题,提出了如图1所示的特征选择策略。为便于后文描述,将原始输入数据X采用下式改写,其中,N和P分别代表建模样本的数量和维数,即P为原始输入特征的数量,xp表示第pth个输入特征。相应的,输出数据为图1中,表示第pth个特征的相关系数值;fcorr表示依据经验确定的相关系数阈值的比例系数;θcorr表示基于相关系数选择特征的阈值;表示基于相关系数的候选特征集合,其中:表示第个基于相关系数选择的候选特征,表示基于相关系数选择的候选特征数量;表示第pth个特征的互信息值;fmi表示依据经验确定的互信息值阈值的比例系数;θmi表示基于互信息选择特征的阈值;表示基于互信息的候选特征集合,其中:表示第个基于互信息选择的候选特征,表示基于互信息选择的特征数量;表示候选特征集合,其中:表示第个基于相关系数和互信息选择的候选特征,表示基于相关系数和互信息选择的候选特征数量;kcorr和kmi表示计算综合评价值时对应的相关系数和互信息的比例系数;fcorr_mi表示依据经验确定的综合评价值阈值的比例系数;θcorr_mi表示基于综合评价值选择特征的阈值;表示最终选择的输入特征集合,其中:表示第pselth个最终选择的输入特征,表示选择的最终输入特征数量。本专利技术提供一种融合相关系数与互信息的特征选择方法,包括:步骤1、基于相关系数的特征选择首先,计算不同原始输入特征与难以检测参数间的相关系数。此处以第pth个变量为例计算原始相关系数,如下所示,其中,分别表示第pth个输入特征和难以检测参数的N个建模样本的平均值。将上述计算得到的原始相关系数处理为正值,即其中,|·|表示取绝对值。为表述方便,后文称为第pth个特征的相关系数值重复上述过程,获得全部原始输入特征的相关系数并记为按照如下公式计算全部相关系数的均值结合依据经验确定的比例系数fcorr(默认值为1),基于相关系数选择输入特征的阈值自适应地计算为:依据上述阈值,以第pth个输入特征为例,按如下规则进行选择,选择其中αp=1的变量作为基于相关系数选择的候选特征。对全部的原始输入变量执行上述过程,并将其相关系数候选特征集合标记为步骤2、基于互信息的特征选择首先,计算不同原始输入特征与难以检测参数间的互信息值。此处以第pth个变量为例,如下所示,其中,表示联合概率密度,和prob(yn)表示边际概率密度。重复上述过程,获得全部原始输入特征的互信息值并记为按照如下公式计算全部原始输入特征互信息值的均值如下所示:结合依据经验确定的比例系数fmi(本文档来自技高网
...

【技术保护点】
1.一种融合相关系数与互信息的特征选择方法,其特征在于,包括:步骤1、计算每个输入特征与难以检测参数间的相关系数,结合先验知识自适应确定相关系数阈值,选择高于相关系数阈值的特征构建相关系数候选特征集合;步骤2、计算每个输入特征与难以检测参数的互信息值,结合先验知识自适应确定互信息阈值,选择高于互信息值阈值的特征构建互信息候选特征集合;步骤3、取相关系数候选特征集合和互信息候选特征集合的交集作为新的候选特征集合,计算这些新的候选特征的相关系数值与互信息值的可调加权和作为综合评价值,结合先验知识自适应确定综合评价值阈值,选择高于综合评价值阈值的新的候选特征为最终选择的输入特征。

【技术特征摘要】
1.一种融合相关系数与互信息的特征选择方法,其特征在于,包括:步骤1、计算每个输入特征与难以检测参数间的相关系数,结合先验知识自适应确定相关系数阈值,选择高于相关系数阈值的特征构建相关系数候选特征集合;步骤2、计算每个输入特征与难以检测参数的互信息值,结合先验知识自适应确定互信息阈值,选择高于互信息值阈值的特征构建互信息候选特征集合;步骤3、取相关系数候选特征集合和互信息候选特征集合的交集作为新的候选特征集合,计算这些新的候选特征的相关系数值与互信息值的可调加权和作为综合评价值,结合先验知识自适应确定综合评价值阈值,选择高于综合评价值阈值的新的候选特征为最终选择的输入特征。2.如权利要求1所述的融合相关系数与互信息的特征选择方法,其特征在于,步骤1具体为:以第pth个变量为例,如下所示,其中,分别表示第pth个输入特征和难以检测参数的N个建模样本的平均值,将上述计算得到的原始相关系数处理为正值,即其中,|·|表示取绝对值,重复上述过程,获得全部原始输入特征的相关系数并记为按照如下公式计算全部相关系数的均值结合依据经验确定的比例系数fcorr,基于相关系数选择输入特征的阈值自适应地计算为:依据上述阈值,以第pth个输入特征为例,按如下规则进行选择,选择其中αp=1的变量作为基于相关系数选择的候选特征。对全部的原始输入变量执行上述过程,并将其相关系数候选特征集合标记为3.如权利要求2所述的融合相关系数与互信息的特征选择方法,其特征在于,步骤2具体为:以第pth个变量为例,如下所示,其中,表示联合概率密度,和prob...

【专利技术属性】
技术研发人员:乔俊飞郭子豪汤健
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1