【技术实现步骤摘要】
一种面向歧义标记样本的特征选择方法
[0001]本专利技术涉及弱监督信息下的特征选择
,尤其涉及一种面向歧义标记样本的特征选择方法。
技术介绍
[0002]如今信息化技术蓬勃发展,可获取的数据量呈指数增长,合理有效地利用这些数据,从中挖掘出可泛化的信息语义成为现在诸多科研工作者的研究重点。然而,直接对原始高维数据进行学习受到诸多不利因素限制,如高维空间中距离计算困难,样本稀疏等挑战,因此难以获得理想结果,这一现象被称为“维度灾难”。对原始样本进行特征选择是缓解“维度灾难”的有效手段,它从原始特征集合中选取最富信息量的特征子集构建新的训练样本,是一种有效提高后续学习系统性能的预处理技术。
[0003]现有特征选择方法大多基于标记信息单一且明确的监督数据。然而在现实生产环境中,受限于人力资源、时间成本及现有技术水平的制约,可获得的训练数据通常是包含噪声的,因此现有特征选择方法往往无法获得预期效果。如何对歧义标记样本进行特征选择是一个亟待解决的问题。
技术实现思路
[0004]为解决上述针对歧义标记样 ...
【技术保护点】
【技术特征摘要】
1.一种面向歧义标记样本的特征选择方法,其特征在于:包括以下步骤:步骤1:基于含歧义标记的原始数据信息初始化标记置信度,以标记置信度方式刻画标记信息;步骤2:根据样本信息计算每个特征变量与标记变量之间的互信息值;步骤3:选择前p个与标记变量具有最大互信息值的特征作为特征子集元素。步骤4:根据所选特征子集进行kNN聚合,更新样本示例的标记置信度;步骤5:若标记置信度不变,则转到步骤(6),否则转到步骤(2);步骤6:根据所选特征子集构造低维数据集;步骤7:结束。2.根据权利要求1所述的一种面向歧义标记样本的特征选择方法,其特征在于:所述步骤1使用标记置信度表示歧义标记信息,具体包括:假设具有歧义标记的数据集其中表示具有d维特征的样本示例,S
i
是与x
i
对应的候选标记集合,其真实标记y
i
在学习阶段未知,但满足y
i
∈S
i
,其中S
i
是与x
i
对应的候选标记集合;令Y(i,j)表示标记l
j
是示例x
i
真实标记的置信度,其被初始化为:3.根据权利要求1所述的一种面向歧义标记样本的特征选择方法,其特征在于:步骤2根据样本信息计算每个特征变量与标记变量之间的互信息值,依此评估特征变量与标记变量之间的依赖关系。具体过程如下:所选特征子集A
*
可以被形式化地描述为:其中F表示原始特征集合,I(
·
;
·
)表示变量间互信息,H(
·
|
·
)表示条件熵;对于每个歧义标记样本(x
i
,S
i
)(|S
i...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。