基于非负矩阵分解和可视化技术的多分类特征选择方法技术

技术编号:20623642 阅读:22 留言:0更新日期:2019-03-20 14:55
一种基于非负矩阵分解和可视化技术的多分类特征选择方法,先提取待处理的数据集,进行非负化、归一化处理,然后进行数据可视化分析,分析数据集中特征所包含的“类”,确定对其进行NMF分解时的低维嵌入维数,对数据集采用最小二乘迭代算法进行非负矩阵分解,计算权值矩阵,对基矩阵和权值矩阵进行热图可视化表达,观察权值矩阵的特征聚类情况,通过调节热图阈值控制分类特征个数最少,在热图中采用显著表达原理从权值矩阵每一行中选择一个分类特征;对选择出的分类特征做并集运算,得到最终的分类特征集合,本发明专利技术结合了非负矩阵分解结果的物理意义及热图形象直观的优点,在数据降维的同时,保证了所选特征子集的分类精度。

Multi-class feature selection method based on non-negative matrix factorization and visualization technology

A multi-class feature selection method based on non-negative matrix decomposition and visualization technology is proposed. First, the data set to be processed is extracted, non-negative and normalized, then the data visualization analysis is carried out, the \classes\ contained in the data set are analyzed, and the low-dimensional embedding dimension of NMF decomposition is determined. The least squares iteration algorithm is used for non-negative matrix of the data set. Decomposition, calculation of the weight matrix, visualization of the base matrix and the weight matrix, observation of the feature clustering of the weight matrix, control the minimum number of classification features by adjusting the threshold of the heat map, and use the salient representation principle to select a classification feature from each row of the weight matrix in the heat map; and do the combined operation of the selected classification features to obtain the final classification features. The method combines the physical meaning of the decomposition result of the non-negative matrix and the advantages of intuitive thermal image, and ensures the classification accuracy of the selected feature subset while reducing the dimension of the data.

【技术实现步骤摘要】
基于非负矩阵分解和可视化技术的多分类特征选择方法
本专利技术属于机械设备状态检测与故障诊断
,具体涉及一种基于非负矩阵分解和可视化技术的多分类特征选择方法。
技术介绍
旋转机械是一类借助于传动部件实现动力传送的设备,随着工业现代化的快速推进,作为主要的生产工具,旋转机械在现代工业和生产中占有越来越大的比重,应用领域涵盖传统的冶金、石油、化工、电力、交通、农业生产等关键领域,这为生产效率的提高和人力资源的节约提供了条件。然而,工业自动化技术的不断发展使设备的功能结构越来越复杂、系统化和专业化的程度越来越高、各个部件联系越来越紧密,一旦某个部件发生故障就可能引起连锁反应,轻则导致设备无法继续工作,重则导致严重的人身伤害事故,带来巨大的经济损失。对旋转机械的运转异常做出及时预警不仅可以保证其运作的安全性,还可以带来明显的经济收益。而随着信息获取技术的不断进步,能够获得的有关系统状态和运行参数的特征量越来越多,包括了冗余和无关特征信息,这为后续的诊断识别带来了巨大挑战,这就需要对高维数据进行有效的特征选择和提取工作。除了传统的维数约简方法外,非负矩阵分解(Non-negativeMatrixFactorization,NMF)方法可以得到原特征数据矩阵的低秩逼近,分解结果具有较好的可解释性和物理意义,在监测诊断领域得到了推广应用。此外,可视化技术也开始在故障诊断领域得到推广,可视化技术充分利用了视觉系统对人类认知所提供的便利和优势,将数据彼此间隐藏的联系和数据的外在物理属性关联起来,为用户分析数据集给予了辅助。但是,目前基于非负矩阵分解的特征分析方法中,采用的是原始多类故障样本矩阵分解的基矩阵或系数矩阵直接分析,以算法为中心,缺乏与可视化技术的结合,选择的结果可解释性不强,限制了特征选择的效率和效果。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供了一种基于非负矩阵分解和可视化技术的多分类特征选择方法,结合了非负矩阵分解结果的物理意义及热图形象直观的优点,在数据降维的同时,保证了所选特征子集的分类精度。为了达到上述目的,本专利技术所采用的技术方案是:一种基于非负矩阵分解和可视化技术的多分类特征选择方法,包括以下步骤:1)提取待处理的数据集Pn×b,数据集Pm×n的行m代表着样本,列n代表着原始特征;2)将数据集Pm×n进行非负化、归一化处理,式中:i=1,2,…,m;j=1,2,…,n,maxPkj为列向量Pj的最大值;minPkj为列向量Pj的最小值;3)对归一化后的数据集Pm×b进行数据可视化分析,初步分析数据集Pm×n中特征所包含的“类”,确定对其进行NMF分解时的低维嵌入维数r;4)根据低维嵌入维数r,对数据集Pm×n采用最小二乘迭代算法进行非负矩阵分解,即P=WH;随机初始化W和H,非负矩阵分解得到基矩阵W和系数矩阵H,迭代规则如下:W←[PHT(HHT)-1]+(2)H←[(WTW)-1WTP]+(3)式中:W为数据集P非负矩阵分解得到的基矩阵,WT表示基矩阵W的转置,H为数据集P非负矩阵分解得到的系数矩阵,HT表示系数矩阵H的转置;5)计算权值矩阵K,即系数矩阵H的伪逆矩阵,K=|H-1|(4)式中:H为数据集P非负矩阵分解得到的系数矩阵,K表示系数矩阵H计算得到的伪逆矩阵;6)对基矩阵W和权值矩阵K进行热图可视化表达,基矩阵W的行对应着样本,权值矩阵K的列对应着原始特征;7)观察权值矩阵K的特征聚类情况,通过调节热图阈值控制分类特征个数最少,若权值矩阵K的分类特征个数不超过5个,则进行步骤8),否则重新选择低维嵌入维数r,返回步骤3);8)在热图中采用显著表达原理从权值矩阵K每一行中选择一个分类特征Fi;9)对步骤8)中选择出的分类特征Fi做并集运算,得到最终的分类特征集合F,F=F1∪F2∪…∪Fi(i=1,2,…,r)(5)。本专利技术的有益效果为:本专利技术方法能够实现非负矩阵分解和热图可视化技术的优势互补,选择的结果可解释性强,在对原始高维原始特征进行降维的同时保证了低维特征子集的良好的分类性能。附图说明图1是本专利技术方法流程图。图2是实施例中数据集P热图可视化效果图。图3是实施例中数据集P(低维嵌入维数r为4)的非负矩阵分解结果热图可视化效果图。图4是实施例中数据集P(低维嵌入维数r为5)的非负矩阵分解结果热图可视化效果图。图5是实施例中TEP数据集特征2、15和16三维可视化效果图。具体实施方式下面结合附图和实施例对本专利技术做详细说明,本实施例针对田纳西-伊斯曼过程(Tennessee-EastmanProcess,TEP)数据集展开,田纳西-伊斯曼过程数据源包含41个测量变量,12个控制变量和21种故障类型(每一类故障数据以及正常数据均含有480个样本)。本实施例选取了IDV(2)、IDV(3)、IDV(4)、IDV(5)四种故障数据进行故障敏感特征子集的选择。对原始矩阵的预处理包括两部分,一是通过对各类数据的样本均值和方差指标设定阈值以剔除掉矩阵中与分类无关的特征,二是通过对各个特征间的相关系数设定阈值以剔除掉矩阵中彼此间相关性较高的冗余特征。预处理后矩阵的特征维数从52维降到了16维,则待分解矩阵P为1920*16的新矩阵,见表1,表1是实施例中TEP数据集特征与变量对应关系表,本实施例对这16种特征进行特征选择,选择出分类性能良好的特征。表1参照图1,一种基于非负矩阵分解和可视化技术的多分类特征选择方法,包括以下步骤:1)提取待处理的数据集Pm×n,数据集Pm×n的行m代表着样本,列n代表着原始特征,本实施例采用TEP数据集;2)将数据集Pm×n进行非负化、归一化处理,式中:i=1,2,…,m;j=1,2,…,n,maxPkj为列向量Pj的最大值;minPkj为列向量Pj的最小值;3)对归一化后的数据集Pm×b进行数据可视化分析,初步分析数据集Pn×n中特征所包含的“类”,确定对其进行NMF分解时的低维嵌入维数r;参照图2,图2为数据集P的热图可视化表达,集合X中主要包含以下几类特征:一类是可以区分出IDV(2)故障样本的特征,如特征1、2、5等;一类是可以显著表达IDV(4)故障样本的特征,如特征15;另一类是可以显著表达IDV(5)故障样本的特征,如特征16;还有一类是无法区分出任何一类故障样本的特征,包括波动性较小的特征(如特征4、10)和波动性较大的特征(如特征9、12)。因此,集合X包含有四类或者五类本质特征结构,优先考虑低维嵌入维数r=4;4)根据低维嵌入维数r,对数据集Pm×n采用最小二乘迭代算法进行非负矩阵分解,即P=WH;随机初始化W和H,非负矩阵分解得到基矩阵W和系数矩阵H,迭代规则如下:W←[PHT(HHT)-1]+(2)H←[(WTW)-1WTP]+(3)式中:W为数据集P非负矩阵分解得到的基矩阵,WT表示基矩阵W的转置,H为数据集P非负矩阵分解得到的系数矩阵,HT表示系数矩阵H的转置;5)计算权值矩阵K,即系数矩阵H的伪逆矩阵,K=|H-1|(4)式中:H为特征集合P非负矩阵分解得到的系数矩阵,K表示系数矩阵H计算得到的伪逆矩阵;6)对基矩阵W和权值矩阵K进行热图可视化表达,基矩阵W的行对应着样本,权值矩阵K的列对应着原始特征;7)观察本文档来自技高网
...

【技术保护点】
1.一种基于非负矩阵分解和可视化技术的多分类特征选择方法,其特征在于,包括以下步骤:1)提取待处理的数据集Pm×n,数据集Pm×n的行m代表着样本,列n代表着原始特征;2)将数据集Pm×n进行非负化、归一化处理,

【技术特征摘要】
1.一种基于非负矩阵分解和可视化技术的多分类特征选择方法,其特征在于,包括以下步骤:1)提取待处理的数据集Pm×n,数据集Pm×n的行m代表着样本,列n代表着原始特征;2)将数据集Pm×n进行非负化、归一化处理,式中:i=1,2,...,m;j=1,2,...,n,maxPkj为列向量Pj的最大值;minPkj为列向量Pj的最小值;3)对归一化后的数据集Pm×n进行数据可视化分析,初步分析数据集Pm×n中特征所包含的“类”,确定对其进行NMF分解时的低维嵌入维数r;4)根据低维嵌入维数r,对数据集Pm×n采用最小二乘迭代算法进行非负矩阵分解,即P=WH;随机初始化W和H,非负矩阵分解得到基矩阵W和系数矩阵H,迭代规则如下:W←[PHT(HHT)-1]+(2)H←[(WTW)-1WTP]+(3)式中:W为数据集P非负矩...

【专利技术属性】
技术研发人员:梁霖牛奔刘飞山磊何康康徐光华
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1