一种基于局部标签相关和特征冗余的稀疏特征选择方法技术

技术编号:39155617 阅读:14 留言:0更新日期:2023-10-23 15:00
本发明专利技术属于数据分析技术领域,具体涉及一种基于局部标签相关和特征冗余的稀疏特征选择方法,通过输入样本矩阵、标签矩阵以及目标函数中的超参数至目标函数中进行迭代更新,目标函数由在标签系数矩阵、实例矩阵、权重矩阵和标签矩阵之间构建的损失函数、局部标签相关函数以及特征冗余函数构成;在达到设定的停止规则时停止迭代更新过程,按照设定排序输出的特征子集。该方法明通过损失函数深化了标签与特征之间的关系,通过局部标签相关函数探索局部标签之间的潜在关系并选择性能较好的特征子集,最后利用特征冗余函数生成具有鉴别性和低冗余度的特征子集,并能够输出最佳排序的特征子集,进而提高特征选择方法的分类效果,保证分类结果的准确性。证分类结果的准确性。证分类结果的准确性。

【技术实现步骤摘要】
一种基于局部标签相关和特征冗余的稀疏特征选择方法


[0001]本专利技术属于数据分析
,具体涉及一种基于局部标签相关和特征冗余的稀疏特征选择方法。

技术介绍

[0002]在多标签学习领域,单个实例通常与多个语义场景相关联,并且同时具有一个或多个标签。此外,几乎多标签数据集都是稀疏和冗余的,这可能会导致多标签分类模型的性能显著下降。在现实生活中,高维数据中存在大量的冗余或噪声,因此有必要对其进行预处理。由于这些无效或冗余信息会降低模型的分类性能,因此有必要减少维数诅咒。通常,特征选择可以用来保持所选特征的直观可解释性和物理意义。因此,多标签学习中的特征选择算法在文本分析、生物学研究等领域得到了有效的应用。
[0003]目前已有三种特征选择模型来选择重要的特征子集,分别是封装模型、过滤模型和嵌入模型。在这些方法中,嵌入模型因其出色的分类能力和较低的时间成本而获得了比其他方法更多的青睐。现有技术中为了避免冗余和噪声数据对分类性能的影响,可以在多标签特征选择框架中加入稀疏正则化,例如,Chen等人撰写的《Extended adaptive Lasso for multi

class and multi

label feature selection》中开发了一个模型,该模型扩展了自适应Lasso回归,可以用于多类和多标签数据集。但该模型对非线性问题的适应性较差,损失函数中存在不可微点。Li等人撰写的《Label correlations variation for robust multi

label feature selection》描述了一种鲁棒多标签分类方法,该方法设计了具有L2,1正则化的自表示系数矩阵来去除噪声点和冗余点,但并没有考虑到特征之间的相关性,而探索标签之间的相关性对于多标签特征选择方法至关重要。在现实中,大多数研究者倾向于通过流形学习来研究标签相关性,如Hu等人撰写的《Robust multi

label feature selection with dual

graph regularization》描述了一种具有对偶图结构的多标签数据框架,它使用流形正则化来保存标签和特征的局部几何结构,但这种嵌入式方法几乎没有考虑标签和特征之间的依赖关系,导致了关键信息的丢失。Liu等人撰写的《Arobust graph based multi

label feature selection considering feature

label dependency》使用流形正则化嵌入到原始特征和标签空间中的低维流形,保留了局部标签流形结构。但他们没有考虑具有复杂分布的数据集和特征之间的相互作用。在现实应用中,得到的原始数据集往往太混乱并且不完整,导致机器学习模型在识别和提取重要信息时无效。因此,利用特征选择方案去除冗余特征是一项重要的工作。总的来说现有的多标签特征选择模型要么考虑标签之间的关系,要么考虑特征之间的冗余。大多数算法都只使用简单的稀疏约束来处理高维数据,而没有详细考虑特征与标签之间的内在关系,这些问题会对特征选择算法的分类效果产生很大的影响,进而使得分类结果不准确的问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于局部标签相关和特征冗余的稀疏特征选择方法,
用以解决现有特征选择方法分类结果不准确的问题。
[0005]为解决上述技术问题,本专利技术提供了一种基于局部标签相关和特征冗余的稀疏特征选择方法,包括如下步骤:
[0006]1)输入样本矩阵、标签矩阵以及目标函数中的超参数至目标函数中进行迭代更新,所述目标函数由在标签系数矩阵、实例矩阵、权重矩阵和标签矩阵之间构建的损失函数、局部标签相关函数以及特征冗余函数构成;通过损失函数探究标签与特征之间的关系,根据局部标签相关函数获取标签之间的信息并筛选评分较高的特征,再根据特征冗余函数生成特征冗余度较低的特征子集,并求解每个特征的权重系数;
[0007]2)在达到设定的停止规则时停止迭代更新过程,按照设定排序输出的特征子集。
[0008]其有益效果为:本专利技术的方法为了研究标签与特征之间的潜在联系,在标签系数矩阵、实例矩阵、权重矩阵和标签矩阵之间构造损失函数,为了进一步利用局部标签相关性通过利用局部标签信息可以获得得分较高的特征子集,并引入修正余弦相似度,通过计算特征之间的相似度来控制特征冗余度,筛选出具有代表性且冗余度较低的特征,进而提高分类效果,保证分类结果的准确性。
[0009]进一步地,步骤1)中,所述损失函数为基于L2,1的正则化损失函数。
[0010]进一步地,基于L2,1的正则化损失函数为:其中,U为样本矩阵,P为权重矩阵,G为标签矩阵,||UP-G||
F
表示Frobenius范数;γ为超参数;||P||
2,1
表示矩阵P的L2,1范数。
[0011]进一步地,步骤1)中,局部标签相关函数基于将流形约束与拉普拉斯分数结合建立。
[0012]进一步地,所述局部标签相关函数为:其中,S为标签惩罚项,q(u
i
)∈Q为判别函数,||S||2表示L2范数,Tr()表示矩阵的迹,Q
T
表示矩阵Q的逆矩阵,L=H

H
R
为图拉普拉斯矩阵,为对角矩阵,λ为超参数。
[0013]进一步地,步骤1)中,所述特征冗余函数为:
[0014][0015]其中P为权重矩阵;W
er
表示第e个特征和第r个特征之间的修正的余弦相似度,n为特征总数。
[0016]进一步地,步骤1)中,所述目标函数为:
[0017][0018]其中α、β以及λ表示不同的超参数,U为样本矩阵,P为权重矩阵,G为标签矩阵,V为
标签系数矩阵,L
p
为对称的图拉普拉斯矩阵,S为标签惩罚项,W
ij
为第i个特征和第j个特征之间的修正的余弦相似度,||||
F
为Frobenius范数,||||
2,1
为L2,1范数。
[0019]进一步地,通过迭代更新目标函数中的P、S以及V这三个矩阵的值,当满足设定迭代条件或迭代次数达到最大迭代次数时停止。
[0020]进一步地,所述满足设定迭代条件为当两个连续函数值之间的差值小于预设值。
[0021]进一步地,步骤2)中,按照设定排序输出的特征子集为:根据权重系数从最大到最小选择特征子集,输出按顺序排列的特征子集。
附图说明
[0022]图1a

图1f是本专利技术方法与现有方法在六个不同数据集的AP对比图;
[0023]图2a

图2f是本专利技术方法与现有方法在六个不同数据集的CV对比图;
[0024]图3a

图3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于局部标签相关和特征冗余的稀疏特征选择方法,其特征在于,包括如下步骤:1)输入样本矩阵、标签矩阵以及目标函数中的超参数至目标函数中进行迭代更新,所述目标函数由在标签系数矩阵、实例矩阵、权重矩阵和标签矩阵之间构建的损失函数、局部标签相关函数以及特征冗余函数构成;通过损失函数探究标签与特征之间的关系,根据局部标签相关函数获取标签之间的信息并筛选评分较高的特征,再根据特征冗余函数生成特征冗余度较低的特征子集,并求解每个特征的权重系数;2)在达到设定的停止规则时停止迭代更新过程,按照设定排序输出的特征子集。2.根据权利要求1所述的基于局部标签相关和特征冗余的稀疏特征选择方法,其特征在于,步骤1)中,所述损失函数为基于L2,1的正则化损失函数。3.根据权利要求2所述的基于局部标签相关和特征冗余的稀疏特征选择方法,其特征在于,基于L2,1的正则化损失函数为:其中,U为样本矩阵,P为权重矩阵,G为标签矩阵,||UP-G||
F
表示Frobenius范数;γ为超参数;||P||
2,1
表示矩阵P的L2,1范数。4.根据权利要求1所述的基于局部标签相关和特征冗余的稀疏特征选择方法,其特征在于,步骤1)中,局部标签相关函数基于将流形约束与拉普拉斯分数结合建立。5.根据权利要求4所述的基于局部标签相关和特征冗余的稀疏特征选择方法,其特征在于,所述局部标签相关函数为:其中,S为标签惩罚项,q(u
i
)∈Q为判别函数,||S||2表示L2范数,Tr()表示矩阵的迹,Q
T
表...

【专利技术属性】
技术研发人员:孙林马雨萱常宝方王振华
申请(专利权)人:河南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1