一种基于权重标签的局部子集合多标记特征选择方法技术

技术编号：33731026 阅读：35 留言：0更新日期：2022-06-08 21:26

本发明专利技术公开一种基于权重标签的局部子集合多标记特征选择方法。特征选择是指在不同数据集中选择与标签相关度较高且特征之间冗余度较低的特征子集。传统的特征选择方法没有考虑标签的权重和与标签相关性较弱的特征也可能对特征的划分起决定性作用。在分析传统的多标签特征选择方法优劣的基础上，引入权重标签和局部子空间实现优化多标签特征选择。改进后的方法通过计算标签的权重，能有效的了解单个标签在多标签集合中的重要性，使得计算特征与标签的相关性时，更有说服力，并对三个子空间设置采样比例，能有效地增强特征选择的灵活度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于权重标签的局部子集合多标记特征选择方法

[0001]本专利技术涉及多标签数据集降维方法，属于大数据、粗糙集和特征选择的机器学习领域。

技术介绍

[0002]近年来，随着大数据技术和相关技术的不断发展，生活中产生海量的数据，形式内容也多种多样，特征选择作为大数据处理的关键技术之一，可以在海量数据中挖掘有用的信息，实现对数据进行精确的分类和科学的决策。但是，由于不同的特征选择方法对数据精确分类的准则不一样，使得特征选择成为一个十分关键和棘手的问题。
[0003]特征选择是指在不同品质的数据下选取符合要求且特征之间冗余度较低的最优特征子集，目的是去除冗余度较高且相关度较低的特征，是一个减少时间和空间复杂度、提高数据品质的过程。海量的数据未止步于单个标签，而是向多标签趋势发展，传统的单标签特征选择方法难以处理多标签数据，所以多标签特征选择方法成为一个新的研究热点。而互信息是信息论中一种度量不确定因素的有效方式，被广泛应用于多标签特征选择，因此诸多学者在此方面进行了深入的研究。例如Lee等人通过计算已选特征与标签集合的...

【技术保护点】

【技术特征摘要】
1.一种基于权重标签的局部子空间多标签特征选择方法，其特征在于，包括以下步骤：步骤1：输入一个多标签数据集T，其中多标签数据T包含特征数据集X＝{x1,x2,
…
,x
n
}和标签数据集Y＝{y1,y2,
…
,y
n
}；步骤2：在标签数据集Y＝{y1,y2,
…
,y
n
}，p(y
i
)为y
i
的先验概率，计算特征数据Y的信息熵步骤3：根据第2步信息熵计算得到标签y
i
与标签y
j
之间的相关度D(y
i
,y
j
)＝H(y
i
)+H(y
j
)
‑
H(y
i
,y
j
)，标签与标签集合的相关度其中y
i
,y
j
∈Y；步骤4：根据公式计算单个标签在标签集合中的重要程度即标签权重，W(y
i
)越大，表示单个标签在集合中的重要性越大，所有单个标签都计算完之后放入权重标签集合W中；步骤5：计算单个特征与单个标签的相关度D(x
i
,w
j
)＝H(x
i
)+H(w
j
)
‑
H(x
i
,w
j
)，其中x
i
∈X,w
j
∈W；步骤6：根...

【专利技术属性】
技术研发人员：程小辉，邵平，
申请(专利权)人：桂林理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人