一种基于局部特征相关和高阶标签的稀疏特征选择方法技术

技术编号:39159891 阅读:15 留言:0更新日期:2023-10-23 15:02
本发明专利技术属于数据分类技术领域,具体涉及一种基于局部特征相关和高阶标签的稀疏特征选择方法,该方法通过将样本矩阵和标签矩阵输入至目标函数中进行迭代更新,该目标函数根据样本矩阵和标签矩阵预选特征子集;根据局部特征相关性函数以及高阶标签信息函数确定两个标签之间的相关性;并在达到设定的停止规则时停止迭代更新过程,按照设定排序输出的特征子集。因本发明专利技术的方法结合了高阶标签的特点,充分利用、挖掘标签背后的隐藏信息,并显式地指出两个标签之间的相关性,进而能够准确的反映局部特征之间的关联性,以提高多标记数据的分类性能,提高了特征选择结果的准确性。提高了特征选择结果的准确性。提高了特征选择结果的准确性。

【技术实现步骤摘要】
一种基于局部特征相关和高阶标签的稀疏特征选择方法


[0001]本专利技术属于数据分类
,具体涉及一种基于局部特征相关和高阶标签的稀疏特征选择方法。

技术介绍

[0002]多标签分类能够解决具有丰富语义的现实任务,具体而言,在多标签分类中,一个实例可能与多个标签相关联。例如,一幅图像可能与一组标签相关联,一条新闻可能属于多个主题。与传统的单标签分类问题相比,多标签分类问题由于输出空间的巨大规模使得其成为一项更具挑战性的任务。研究表明,具有大量冗余和噪声的高维数据广泛出现于现实生活中。高维数据所引起的“维数灾难”会降低模型的性能。因此,研究者们提出了两种降维技术来解决这一问题:特征提取和特征选择。特征提取是将样本从高维输出空间通过线性或非线性映射投影到一个低维空间得到新的特征集合。很显然,这类方法虽然降低了样本的维数,但却失去了特征原有的语义信息,无法有效去除无关和冗余特征。特征选择则有效解决了这一问题,特征选择是指从原始的特征集合中用计算的方法按照评价准则选择出部分具有良好区分特性的特征进行分类。其目的是根据一些准则选出最小的特征子集,使分类等任务达到和特征选择前近似甚至更好的效果。因此特征选择更具解释性和意义,并被广泛应用于生物信息学、医学、材料化学和经济学等各个领域。
[0003]大多数的特征选择方法主要针对单标记学习,随着多标记学习的普及,越来越多的学者开始关注多标记问题的研究。目前,有很多针对于多标记数据的特征选择算法被提出:Fan等人撰写的《Multi

label feature selection based on label correlations and feature redundancy》在损失函数的正则化部分使用l
2,1
范数来选择特征。Braytee等人撰写的《Multi

label feature selection using correlation information》将特征和标签空间分解为低维空间,用于进行多标签特征选择(CMFS)。Wang等人撰写的《A survey of sparse representation:Algorithms and applications》通过控制系数矩阵的稀疏性来过滤标签特定特征,并对标签矩阵应用低秩约束以挖掘类标签的局部相关性。然而,在多标记学习中的标签矩阵通常是一个满秩矩阵,不能用低秩分解很好地逼近。而且,在潜在空间中,使用此种方法也会使标签相关性变得间接且语义不清晰。在现实生活中,对于大多数任务,其实只需要小部分原始特征来训练模型,而大部分的特征都是不相关或者冗余的。Melo和Paulheim撰写的《Local and global feature selection for multilabel classification with binary relevance》将局部和全局特征选择的效果进行比较,实验结果显示,在特征选择过程中,局部特征选择不仅优于全局特征选择,而且在运行时性能方面的表现更好。基于此,在特征选择中更应考虑局部特征相关性,例如Jian等人撰写的《Multi

label informed feature selection》多标记特征选择框架(MIFS)将标签信息投影到低维空间中,并使其具有与特征空间相似的局部几何结构。Huang等人撰写的《Manifold

based constraint Laplacian score for multi

label feature selection》提出了基于流形约束和拉普拉斯分数的特征选择方法(MCLS),将二进制标签空间投影到数
字标记空间,然后通过相应的数字标签约束实例之间的相似。然而,这些方法仅通过相似性度量来获取标记相关性和局部特征相关性,这导致无法很好地反映局部特征之间的关联关系。因此现有技术中在研究标签背后的隐藏信息时,使用低秩矩阵分解的方法可能会破坏高阶标签矩阵的秩,从而无法利用一些有用信息;并且对于全局特征相关性的研究也并不容易。

技术实现思路

[0004]本专利技术的目的在于提供一种基于局部特征相关和高阶标签的稀疏特征选择方法,用以解决现有的特征选择方法无法准确的反映局部特征之间的关联性,导致特征选择结果不准确的问题。
[0005]为解决上述技术问题,本专利技术提供了一种基于局部特征相关和高阶标签的稀疏特征选择方法,包括如下步骤:
[0006]1)输入样本矩阵和标签矩阵至目标函数中进行迭代更新,所述目标函数根据样本矩阵和标签矩阵预选特征子集;根据局部特征相关性函数以及高阶标签信息函数确定两个标签之间的相关性;
[0007]2)在达到设定的停止规则时停止迭代更新过程,按照设定排序输出的特征子集,选取该输出的特征子集中的前设定个数的子集形成新的子集,将新的子集作为最终的特征子集。
[0008]其有益效果为:本专利技术的方法通过基于l
2,1
正则化的损失函数,探索特征与标签之间的潜在关系,并实现选择具辨别力的特征子集,通过结合高阶标签的特点,充分利用、挖掘标签背后的隐藏信息,并显式地指出两个标签之间的相关性,并将流形学习与拉普拉斯分数相结合作为处理局部特征的一种方法来更好的利用局部特征相关性,进而能够准确的反映局部特征之间的关联性,提高了特征选择结果的准确性。
[0009]进一步地,步骤1)中,所述目标函数通过基于l
2,1
范数的正则化损失函数探究标签与特征之间的关系。
[0010]本专利技术的方法考虑到因为l
2,1
正则化可以加强特征选择矩阵在行上的稀疏,因此通过采用基于l
2,1
范数的正则化损失函数,不仅考虑了模型的解释性与约束性问题,而且能够探索特征与标签之间的潜在关系,从而使得特征选择矩阵更加稀疏并易于求解。
[0011]进一步地,基于l
2,1
范数的正则化损失函数为:其中,W为特征系数矩阵;||XW

Y||
F
表示Frobenius范数;λ为一个超参数;||W||
2,1
表示W的l
2,1
范数。
[0012]进一步地,步骤1)中,局部特征相关性函数基于流形约束和拉普拉斯分数建立。
[0013]进一步地,所述局部特征相关性函数中基于拉普拉斯分数所建立的函数为:
[0014]其中Lp=(L+L
T
)/2,L=G

Q
R
为图拉普拉斯矩阵,为一个对角矩阵;Q
R
∈R
n
×
n
为关于Q的k最近邻图实例;Tr(
·
)表示矩阵的迹。
[0015]进一步地,所述局部特征相关性函数中基于流形约束所建立的函数为:
[0016][0017]其中,Lο=D

U为图拉普拉斯矩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于局部特征相关和高阶标签的稀疏特征选择方法,其特征在于,包括如下步骤:1)输入样本矩阵和标签矩阵至目标函数中进行迭代更新,所述目标函数根据样本矩阵和标签矩阵预选特征子集;根据局部特征相关性函数以及高阶标签信息函数确定两个标签之间的相关性;2)在达到设定的停止规则时停止迭代更新过程,按照设定排序输出的特征子集,选取该输出的特征子集中的前设定个数的子集形成新的子集,将新的子集作为最终的特征子集。2.根据权利要求1所述的基于局部特征相关和高阶标签的稀疏特征选择方法,其特征在于,步骤1)中,所述目标函数通过基于l
2,1
范数的正则化损失函数探究标签与特征之间的关系。3.根据权利要求2所述的基于局部特征相关和高阶标签的稀疏特征选择方法,其特征在于,基于l
2,1
范数的正则化损失函数为:其中,W为特征系数矩阵;||XW

Y||
F
表示Frobenius范数;λ为一个超参数;||W||
2,1
表示W的l
2,1
范数。4.根据权利要求1所述的基于局部特征相关和高阶标签的稀疏特征选择方法,其特征在于,步骤1)中,局部特征相关性函数基于流形约束和拉普拉斯分数建立。5.根据权利要求4所述的基于局部特征相关和高阶标签的稀疏特征选择方法,其特征在于,所述局部特征相关性函数中基于拉普拉斯分数所建立的函数为:其中Lp=(L+L
T
)/2,L=G

...

【专利技术属性】
技术研发人员:孙林马雨萱王振华魏然
申请(专利权)人:河南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1