【技术实现步骤摘要】
一种基于权重标签的局部子集合多标记特征选择方法
[0001]本专利技术涉及多标签数据集降维方法,属于大数据、粗糙集和特征选择的机器学习领域。
技术介绍
[0002]近年来,随着大数据技术和相关技术的不断发展,生活中产生海量的数据,形式内容也多种多样,特征选择作为大数据处理的关键技术之一,可以在海量数据中挖掘有用的信息,实现对数据进行精确的分类和科学的决策。但是,由于不同的特征选择方法对数据精确分类的准则不一样,使得特征选择成为一个十分关键和棘手的问题。
[0003]特征选择是指在不同品质的数据下选取符合要求且特征之间冗余度较低的最优特征子集,目的是去除冗余度较高且相关度较低的特征,是一个减少时间和空间复杂度、提高数据品质的过程。海量的数据未止步于单个标签,而是向多标签趋势发展,传统的单标签特征选择方法难以处理多标签数据,所以多标签特征选择方法成为一个新的研究热点。而互信息是信息论中一种度量不确定因素的有效方式,被广泛应用于多标签特征选择,因此诸多学者在此方面进行了深入的研究。例如Lee等人通过计算已选特征与标签集合的 ...
【技术保护点】
【技术特征摘要】
1.一种基于权重标签的局部子空间多标签特征选择方法,其特征在于,包括以下步骤:步骤1:输入一个多标签数据集T,其中多标签数据T包含特征数据集X={x1,x2,
…
,x
n
}和标签数据集Y={y1,y2,
…
,y
n
};步骤2:在标签数据集Y={y1,y2,
…
,y
n
},p(y
i
)为y
i
的先验概率,计算特征数据Y的信息熵步骤3:根据第2步信息熵计算得到标签y
i
与标签y
j
之间的相关度D(y
i
,y
j
)=H(y
i
)+H(y
j
)
‑
H(y
i
,y
j
),标签与标签集合的相关度其中y
i
,y
j
∈Y;步骤4:根据公式计算单个标签在标签集合中的重要程度即标签权重,W(y
i
)越大,表示单个标签在集合中的重要性越大,所有单个标签都计算完之后放入权重标签集合W中;步骤5:计算单个特征与单个标签的相关度D(x
i
,w
j
)=H(x
i
)+H(w
j
)
‑
H(x
i
,w
j
),其中x
i
∈X,w
j
∈W;步骤6:根...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。