基于图信号处理的特征选择方法技术

技术编号:27474619 阅读:26 留言:0更新日期:2021-03-02 17:41
本发明专利技术公开了一种基于图信号处理的特征选择方法,其特征是,包括如下步骤:1)构建图模型;2)计算样本平滑度;3)获得降维结果。这种方法能保持样本之间的相关性,提高降维效果。提高降维效果。提高降维效果。

【技术实现步骤摘要】
基于图信号处理的特征选择方法


[0001]本专利技术涉及图信号处理
,具体是一种基于图信号处理的特征选择方法。

技术介绍

[0002]近年来,随着大数据时代的到来,可以从各个领域获得海量的高维数据,如高光谱图像数据,人脸识别数据,基因表达数据等,在对这些数据进行处理分析时,往往由于数据维数过高,导致对这些数据的分析无法高效进行。为了解决“维数灾难”问题,在使用高维数据之前,对数据进行降维是十分必要的步骤。
[0003]现有的降维技术主要有两种:一种是特征提取,另一种是特征选择。特征提取是通过空间变换将高维空间中的数据映射到低维空间,如局部线性嵌入LLE、拉普拉斯特征映射LE等,该方法可以保持数据之间的相关性,但是冗余数据会对降维结果有一定的影响,从而使分类精度降低,并且由于数据集中存在大量冗余,在特征提取中可能会出现过拟合现象;特征选择方法是在不改变原始数据空间的情况下,基于某种准则,如相关系数、距离度量、信息增益和一致性等,选择出特征明显的数据,两种典型算法是ReliefF和MRMR,该方法可以保留原始数据的大部分特征,但是这种方法往往忽略了数据之间的相关性,因此,如何设计模型,使得该模型既能够保持数据之间的联系,又不改变数据的原本特征,实现较高的分类精度是一个值得研究的问题。
[0004]近年来,图信号信号处理理论在处理和分析不规则区域的数据不断发展,并将传统的信号处理理论中的傅里叶变换、频率分析、采样、滤波等拓展到了图信号处理领域。随着图信号处理的发展,图信号处理已经应用到很多领域,如Weiyu Huang等提出了一种利用图信号处理分析脑成像数据的新框架;Leah Goldsberry等利用图谱理论分析不同区域的脑活动信号;Diego Valsesia等构造了用于图像去噪的图卷积神经网络;Arman Hasanzadeh等利用图平稳性提出一种新的交通预测方法。在这些应用中,一个关键点是利用图的拓扑结构对数据元素之间的关联进行建模,保留数据间的相关性。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足,而提供一种基于图信号处理的特征选择方法。这种方法能保持样本之间的相关性,提高降维效果。
[0006]实现本专利技术目的的技术方案是:
[0007]一种基于图信号处理的特征选择方法,包括如下步骤:
[0008]1)构建图模型:将高维数据集X∈R
M
×
N
中的样本作为图上节点,数据集中的每一行代表一个节点,即X
i
(i=1,2,...,M),每一列代表所有节点的一个采样数据,这样的采样数据共N个,即X
j
(j=1,2,

,N),将得到的采样数据作为图信号即高维数据集X中的每一列均为一个图信号,并根据不同样本之间数据的相似性构建图上的拓扑结构,由此构建出三种不同的样本数据之间的图模型,三种图模型分别为:
[0009]模型1:对于第i、j个节点,依据采样数据X
i
和X
j
之间的相关系数来度量两者之间的
相关性,根据相关性的大小,采用最近邻算法构建knn图G,即knn图G上每个节点只与k个具有最大相关值的节点相连,其中相关性的计算公式如公式(1)所示:
[0010][0011]其中,EX
i
和D(X
i
)分别为X
i
的均值和方差,V为样本点的集合;
[0012]模型2:对高维数据集X∈R
M
×
N
的每一列,均生成1个图G
l
(l=1,2,...,N),即一个图对应节点的一个采样数据,则共生成N个图,利用第i个样本与第j个样本的第l个数据之间的距离,测量G
l
图中节点对之间的相关性,并根据相关性的大小,采用最近邻算法构建knn图G,即knn图G上每个节点只与k个具有最大相关值的节点相连,其中,样本的采样数据之间的距离的计算公式如公式(2)所示:
[0013][0014]模型3:模型3是模型2的变体,与模型2不同的是,模型3在对高维数据集X∈R
M
×
N
的每个采样数据即数据集的每一列均生成1个图G
l
(l=1,2,...,N),共生成N个图后,将得到的N个图的拉普拉斯矩阵相加求平均,并将拉普拉斯矩阵中,节点i的除权值最大的k个邻居节点之外的其他权值置为0,以此作为模型3拉普拉斯矩阵;
[0015]2)计算样本平滑度:依据步骤1)得到的图模型,采用图拉普拉斯矩阵和图信号理论中信号平滑度的概念,计算样本数据的平滑程度,所示图拉普拉斯矩阵为L=D-W,其中D为度矩阵,W为邻接矩阵,图信号理论中信号平滑度的公式如公式(3)所示:
[0016][0017]其中,f=(f1,f2,...f
N
)
T
为图信号,L为拉普拉斯矩阵,W
ij
为图信号值f
i
和f
j
之间的权重,V为样本节点集合。
[0018]3)获得降维结果:将步骤2)的计算结果降序排列,选择出降序排列中最大前d个计算结果值对应的采样数据组成集合作为降维结果,其中,d为高维数据集降维后得到的维数,即降维后数据集为X∈R
M
×
d

[0019]本技术方案与现有的特征提取和特征选择方法相比,本技术方案利用图信号处理理论中信号平滑度的概念对数据进行降维,既能够保留原始数据的特征,降低无关数据或噪音对降维结果的影响,又建立能够数据样本之间的网络拓扑,保留样本之间的相关性。
[0020]这种方法能保持样本之间的相关性,提高降维效果。
附图说明
[0021]图1为实施例的方法流程示意图。
具体实施方式
[0022]下面结合附图和实施例对本专利技术的内容作进一步的阐述,但不是对本专利技术的限定。
[0023]实施实例:
[0024]参照图1,一种基于图信号处理的特征选择方法,包括如下步骤:
[0025]1)构建图模型:将高维数据集X∈R
M
×
N
中的样本作为图上节点,数据集中的每一行代表一个节点,即X
i
(i=1,2,...,M),每一列代表所有节点的一个采样数据,这样的采样数据共N个,即X
j
(j=1,2,...,N),将得到的采样数据作为图信号即高维数据集X中的每一列均为一个图信号,并根据不同样本之间数据的相似性构建图上的拓扑结构,由此构建出三种不同的样本数据之间的图模型,三种图模型分别为:
[0026]模型1:对于第i、j个节点,依据采样数据X
i
和X
j
之间的相关系数来度量两者之间的相关性,根据相关性的大小,采用最近邻算法构建knn图G,即knn图G上每个节点只与k个具有最大相关值的节点相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图信号处理的特征选择方法,其特征是,包括如下步骤:1)构建图模型:将高维数据集X∈R
M
×
N
中的样本作为图上节点,数据集中的每一行代表一个节点,即X
i
(i=1,2,...,M),每一列代表所有节点的一个采样数据,这样的采样数据共N个,即X
j
(j=1,2,...,N),将得到的采样数据作为图信号即高维数据集X中的每一列均为一个图信号,并根据不同样本之间数据的相似性构建图上的拓扑结构,由此构建出三种不同的样本数据之间的图模型,三种图模型分别为:模型1:对于第i、j个节点,依据采样数据X
i
和X
j
之间的相关系数来度量两者之间的相关性,根据相关性的大小,采用最近邻算法构建knn图G,即knn图G上每个节点只与k个具有最大相关值的节点相连,其中相关性的计算公式如公式(1)所示:其中,EX
i
和D(X
i
)分别为X
i
的均值和方差,V为样本点的集合;模型2:对高维数据集X∈R
M
×
N
的每一列,均生成1个图G
l
(l=1,2,...,N),即一个图对应节点的一个采样数据,则共生成N个图,利用第i个样本与第j个样本的第l个数据之间的距离,测量G
l
图中节点对之间的相关性,...

【专利技术属性】
技术研发人员:蒋俊正王薇
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1