当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于候选标记估计的未标记数据利用方法技术

技术编号:20161148 阅读:41 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种基于候选标记估计的未标记数据利用方法,包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果用户对分类结果不满意,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20‑S40。本方法借助少量现有已标记数据来构造未标记数据的候选标记集合,能够弥补现实应用中未标记数据不能有效利用的问题。

【技术实现步骤摘要】
一种基于候选标记估计的未标记数据利用方法
本专利技术涉及未标记数据利用方法,属于弱监督信息下多分类任务
,具体涉及一种基于候选标记估计的未标记数据利用方法。
技术介绍
互联网技术的蓬勃发展引领世界走向一个数据爆炸的时代,若能获取足量已标记数据,基于传统监督学习方法即可使学习系统获得极优的泛化性能。然而由于现实世界中待标注数据的规模与标注工作所涉及的领域知识难度大,例如,人脸识别需要百万级数据以提升系统性能,医学图像标注工作需要医者丰富的领域知识,现实任务中获取大量已标记样本往往十分困难,而未标记数据相对容易获取。因此如何有效利用未标记数据提升学习系统的泛化性能具有重要研究意义。现实世界中,未标记数据由于没有显示的标注信息而难以有效利用,实际上,未标记数据是已标记数据的同源数据集,它与已标记数据联系密切且同样包含表示数据分布的重要信息。目前已有的未标记数据利用方法多借助于半监督学习技术,比如半监督支持向量机,其基本思想是找到能使两类样本分开并且穿过数据低密度区域的划分超平面;或者基于图的半监督学习方法与协同训练方法等等,这些方法中对未标记数据没有进行有效利用。
技术实现思路
专利技术本文档来自技高网
...

【技术保护点】
1.一种基于候选标记估计的未标记数据利用方法,其特征在于,包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果分类结果不满足要求,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20‑S40。

【技术特征摘要】
1.一种基于候选标记估计的未标记数据利用方法,其特征在于,包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果分类结果不满足要求,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20-S40。2.根据权利要求1所述的基于候选标记估计的未标记数据利用方法,其特征在于,所述步骤S10中,用户选取的分类数据集为D=Dl∪Du,其中Dl={(xi,yi)|1≤i≤l}表示已标记数据集,l为已标记的样本个数,yi∈{y1,y2,...,yq}为样本xi所对应的类别标记,q为标记类别数;Du={(xj|l+1≤j≤l+u}表示未标记样本集,其中u为未标记的样本个数,记l+u=m且l<<u。3.根据权利要求2所述的基于候选标记估计的未标记数据利用方法,其特征在于,所述步骤S20包括以下步骤:S21、构建(l+u)×q维的二值非负标记矩阵,表示数据集对应的候选标记集合,其中第j行表示xj对应的候选标记集合;S22、使用基于实例的方法并进行迭代的标记传播,基于候选标记集合进一步估计未标记数据的真实标记。4.根据权利要求3所述的基于候选标记估计的未标记数据利用方法,其特征在于,所述步骤S21包括以下步骤:S2101、执行候选标记集合初始化操作,对于已标记样本xi∈Dl,其候选标记集合即为其真实标记,而对于未标记样本xj∈Du,其候选标记集合先初始化为0,对于候选标记集合S的第i行、第k列元素Sik,其具体初始化过程如公式(1):其中yi表示xi的真实标记,k表示标记空间的第k个类别,yi=k表示yi对应于标记空间的第k个类别;S2102、将未标记样本编号j作为变量设为1;S2103、判断j的值是否小于等于u,若是,则进入步骤S2104,否则该候选标记估计过程结束;S2104、在已标记数据集中查找未标记样本xj的k近邻样本,并将其在数据集中索引表示为集合使用高斯核函数计算xj与其k近...

【专利技术属性】
技术研发人员:张敏灵王敬
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1