当前位置: 首页 > 专利查询>东南大学专利>正文

一种面向含噪标记样本的特征方法技术

技术编号:26260054 阅读:28 留言:0更新日期:2020-11-06 17:55
本发明专利技术涉及一种面向含噪声标记样本的特征选择方法,该方法对具有歧义标记信息的样本进行特征筛选,以达到数据预处理的目的。该方法包括以下步骤:(1)采用标记置信度的方式表示标记信息,并基于数据原始的含噪标记信息初始化标记置信度;(2)随机选择部分特征,在所选特征上对样本进行聚类学习;(3)根据得到的聚类结果,计算每个聚类中每个标记的标记置信度;(4)选择具有最大标记置信度的标记作为聚类的标记,同时将置信值作为该类标记的权重,得到聚类‑标记‑权重三元关系,同时更新标记置信度;(5)根据得到的聚类‑标记‑标记权重三元组,计算特征权重;(6)若标记置信度保持不变,则转到步骤(7),否则转到步骤(2);(7)根据特征权重进行特征筛选;(8)结束。

【技术实现步骤摘要】
一种面向含噪标记样本的特征方法
本专利技术涉及一种特征选择方法,属于弱监督信息下的特征选择

技术介绍
伴随着互联网技术的蓬勃发展,可获取的数据海量增长。其中特征是对数据各方面性质的描述,因此对特征进行有效的表示是机器学习的一大研究方向。在现实场景下,样本的特征维数经常成千上万,然而特征的维数并非越高就能越详细地描述样本,大量冗余、无效的特征反而会给学习系统带来困扰。一方面,高维特征下可能会带来数据样本稀疏的问题;另一方面,距离计算是机器学习算法中的常见步骤,而高维空间中的距离计算相当困难。特征选择是有效缓解“维数灾难”的有效手段,它从特征集合中选取相关特征并去除不相关特征,它是一种提高后续学习系统性能的预处理技术。已有的特征选择方法大多基于强监督数据,即标记信息单一且明确的样本。在现实背景下,一方面受到现有技术水平的制约,另一方面考虑到人力资源以及时间成本的问题,单一且明确的标记信息往往难以直接获得。在此情况下,含噪声的标记信息集合的获取更为便捷。含噪标记信息的样本同样面临高维数据带来的困扰,因此如何进行基于含噪标记信息的特征本文档来自技高网...

【技术保护点】
1.一种面向含噪标记样本的特征选择方法,其特征在于:包括以下步骤:/n步骤1:采用标记置信度的方式表示标记信息,并基于数据原始的含噪标记信息初始化标记置信度;/n步骤2:随机选择部分特征,在所选特征上对样本进行聚类学习;/n步骤3:根据得到的聚类结果,计算每个聚类中每个标记的标记置信度;/n步骤4:选择具有最大标记置信度的标记作为聚类的标记,同时将置信值作为该类标记的权重,得到聚类-标记-权重三元关系,同时更新标记置信度;/n步骤5:根据得到的聚类-标记-标记权重三元组,计算特征权重;/n步骤6:若标记置信度保持不变,则转到步骤(7),否则转到步骤(2);/n步骤7:根据特征权重进行特征筛选;...

【技术特征摘要】
1.一种面向含噪标记样本的特征选择方法,其特征在于:包括以下步骤:
步骤1:采用标记置信度的方式表示标记信息,并基于数据原始的含噪标记信息初始化标记置信度;
步骤2:随机选择部分特征,在所选特征上对样本进行聚类学习;
步骤3:根据得到的聚类结果,计算每个聚类中每个标记的标记置信度;
步骤4:选择具有最大标记置信度的标记作为聚类的标记,同时将置信值作为该类标记的权重,得到聚类-标记-权重三元关系,同时更新标记置信度;
步骤5:根据得到的聚类-标记-标记权重三元组,计算特征权重;
步骤6:若标记置信度保持不变,则转到步骤(7),否则转到步骤(2);
步骤7:根据特征权重进行特征筛选;
步骤8:结束。


2.如权利要求1所述的面向含噪标记样本的特征选择方法,其特征在于:步骤1使用标记置信度表示含噪声的标记信息,具体包括:
假设具有噪声标记的数据集D={(xi,Si)|1≤i≤n)},其中xi∈Rd表示具有d维特征的样本,Si是与xi对应的候选标记集合(Si∈γ,γ={l1,l2,…,lq}为具有q类标记的标记空间),xi的真实标记yi∈Si是未知的,令Yij表示样本xi的标记为yj的置信度,计算公式如下所示:





3.如权利要求1所述的面向含噪标记样本的特征选择方法,其特征在于:步骤2使用部分特征对样本进行聚类学习;具体过程如下所示:随机选择d'维特征(d'<d),构成新数据集D’,从D’中随机选择q个样本{p1,p2,…,pq}作为初始聚类中心点,将D’中的样本划分到离其距离最近的中心样本点所属聚类中,得到q个聚类,计算每个聚类的均值,将得到的均值作为新的聚类中心,判断聚类中心是否发生改变,若改变则重复上述过程;否则聚类学习结束,得到聚类结果{T1,T2,…,Tq}。


4.如权利要求1所述的面向含噪标记样本的特征选择方法,其特征在于:步骤3...

【专利技术属性】
技术研发人员:张敏灵吴敬晗
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1