当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于候选标记估计的未标记数据利用方法技术

技术编号:20161148 阅读:36 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种基于候选标记估计的未标记数据利用方法,包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果用户对分类结果不满意,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20‑S40。本方法借助少量现有已标记数据来构造未标记数据的候选标记集合,能够弥补现实应用中未标记数据不能有效利用的问题。

【技术实现步骤摘要】
一种基于候选标记估计的未标记数据利用方法
本专利技术涉及未标记数据利用方法,属于弱监督信息下多分类任务
,具体涉及一种基于候选标记估计的未标记数据利用方法。
技术介绍
互联网技术的蓬勃发展引领世界走向一个数据爆炸的时代,若能获取足量已标记数据,基于传统监督学习方法即可使学习系统获得极优的泛化性能。然而由于现实世界中待标注数据的规模与标注工作所涉及的领域知识难度大,例如,人脸识别需要百万级数据以提升系统性能,医学图像标注工作需要医者丰富的领域知识,现实任务中获取大量已标记样本往往十分困难,而未标记数据相对容易获取。因此如何有效利用未标记数据提升学习系统的泛化性能具有重要研究意义。现实世界中,未标记数据由于没有显示的标注信息而难以有效利用,实际上,未标记数据是已标记数据的同源数据集,它与已标记数据联系密切且同样包含表示数据分布的重要信息。目前已有的未标记数据利用方法多借助于半监督学习技术,比如半监督支持向量机,其基本思想是找到能使两类样本分开并且穿过数据低密度区域的划分超平面;或者基于图的半监督学习方法与协同训练方法等等,这些方法中对未标记数据没有进行有效利用。
技术实现思路
专利技术目的:针对现有技术的不足,本专利技术提出一种基于候选标记估计的未标记数据利用方法,从构造未标记样本的候选标记集合出发,提出一种求解半监督学习问题的新思路,能够实现对未标记数据的有效利用。技术方案:本专利技术所述的一种基于候选标记估计的未标记数据利用方法,该方法包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果分类结果不满足要求,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20-S40。其中,所述步骤S10中,用户选取的分类数据集为D=Dl∪Du,其中Dl={(xi,yi)|1≤i≤l}表示已标记数据集,l为已标记的样本个数,yi∈{y1,y2,…,yq}为样本xi所对应的类别标记,q为标记类别数;Du={(xj|l+1≤j≤l+u}表示未标记样本集,其中u为未标记的样本个数,记l+u=m且l<<u。所述步骤S20包括以下步骤:S21、构建(l+u)×q维的二值非负标记矩阵,表示数据集对应的候选标记集合,其中第j行表示xj对应的候选标记集合;S22、使用基于实例的方法并进行迭代的标记传播,基于候选标记集合进一步估计未标记数据的真实标记。优选地,所述步骤S21包括以下步骤:S2101、执行候选标记集合初始化操作,对于已标记样本xi∈Dl,其候选标记集合即为其真实标记,而对于未标记样本xj∈Du,其候选标记集合先初始化为0,对于候选标记集合S的第i行、第k列元素Sik,其具体初始化过程如公式(1):其中yi表示xi的真实标记,k表示标记空间的第k个类别,yi=k表示yi对应于标记空间的第k个类别;S2102、将未标记样本编号j作为变量设为1;S2103、判断j的值是否小于等于u,若是,则进入步骤S2104,否则该候选标记估计过程结束;S2104、在已标记数据集中查找未标记样本xj的k近邻样本,并将其在数据集中索引表示为集合使用高斯核函数计算xj与其k近邻之间的关系,用Wj=[Wj1,Wj2,…,Wjk]表示,每一维度Wjr计算如公式(2):其中,σ>0是用户设定的带宽参数,exp表示以e为底的对数,表示2范数,xj∈Du,表示未标记样本,是xj的第r个近邻且满足S2105、基于相似的样例具有相似的标记这一假设,根据上步得到的特征空间的关系向量Wj,将特征空间的关系扩展到标记空间,以此构造xj的候选标记集合,具体如公式(3):其中表示对应的候选标记集合;S2106、将未标记样本xj对应的候选标记集合规范化为二值向量,具体如公式(4):Sj+l,n表示未标记样本xj的候选标记集合Sj+l的第n个维度的值;S2107、变量j自增1,并返回步骤S2103处继续向下执行,直到遍历完整个未标记数据集。所述步骤S22包括以下步骤:S2201、将整个数据集中样本编号f作为变量设为1;S2202、判断f的值是否小于等于m,若是,则进入步骤S2203,否则进入步骤S2205;S2203、在整个数据集中查找xf的k近邻样本,并将其数据集中的索引表示为基于其k近邻样本使用最小化重构准则构造权重向量wf,具体如公式(5):wr,f表示xf与其第r个近邻xr之间的权重,通过优化公式(5)得到;S2204、变量f自增1,并返回步骤S2202处继续进行判断;S2205、得到整个数据集的权重矩阵W={w1;w2;…;wm},其中每一行是一个k维向量;S2206、基于权重矩阵W,在整个数据集上执行标记传播过程直至收敛;S2207、估计每个样本的真实标记及其对应的置信度。优选地,步骤S2206中执行标记传播的具体过程如下:首先按照初始化一个m×q维的置信度矩阵P(0)=[plc]m×q,其中每一行表示一个q维向量pl=[pl1,pl2,…,plq],plc对应于P的第l行第c列,表示数据集中第l个样本被预测为第c类的置信度,其计算公式如下:接着按照如下公式迭代更新矩阵P直至P不再改变:其中t表示更新的轮次,为平衡参数,控制两者之间占比;对W按列进行标准化可得到H=WD-1,D=diag[d1,d2,…,dm]是一个对角阵,其中有益效果:1、本专利技术首次提出候选标记集合的概念,通过利用未标记数据与已标记数据之间的相似性,借助少量已标记样本估计未标记样本的候选标记集合,然后基于候选标记集合挖掘出未标记数据中的潜在信息,进一步估计得到其真实标记,增强已标记数据集,从而实现对未标记数据的有效利用。2、本专利技术扩充了已标记数据集合,使用传统监督学习模型进行训练和分类,传统监督学习是目前研究最成熟的一种机器学习方法,相比于半监督学习的有限监督信息,由于其监督信息具有单一、明确的特点,在处理精度以及处理效率上均有显著优势。附图说明图1是未标记数据利用方法的流程图;图2是未标记数据的估计方法流程图;图3是候选标记估计的流程图;图4是二次真实标记估计的流程图。具体实施方式下面结合附图对本专利技术的技术方案作进一步说明。如图1所示,一种基于候选标记估计的未标记数据利用方法,包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果分类结果未到达要求,则基于步骤S30更新的已标记数据集与未标记数据集,重新执行步骤S20-S40。在一个实施例中,步骤S10中,获取已标记数据与未标记数据可从特定分类任务领域数据库中获取。特定分类任务领域数据库的硬本文档来自技高网...

【技术保护点】
1.一种基于候选标记估计的未标记数据利用方法,其特征在于,包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果分类结果不满足要求,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20‑S40。

【技术特征摘要】
1.一种基于候选标记估计的未标记数据利用方法,其特征在于,包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果分类结果不满足要求,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20-S40。2.根据权利要求1所述的基于候选标记估计的未标记数据利用方法,其特征在于,所述步骤S10中,用户选取的分类数据集为D=Dl∪Du,其中Dl={(xi,yi)|1≤i≤l}表示已标记数据集,l为已标记的样本个数,yi∈{y1,y2,...,yq}为样本xi所对应的类别标记,q为标记类别数;Du={(xj|l+1≤j≤l+u}表示未标记样本集,其中u为未标记的样本个数,记l+u=m且l<<u。3.根据权利要求2所述的基于候选标记估计的未标记数据利用方法,其特征在于,所述步骤S20包括以下步骤:S21、构建(l+u)×q维的二值非负标记矩阵,表示数据集对应的候选标记集合,其中第j行表示xj对应的候选标记集合;S22、使用基于实例的方法并进行迭代的标记传播,基于候选标记集合进一步估计未标记数据的真实标记。4.根据权利要求3所述的基于候选标记估计的未标记数据利用方法,其特征在于,所述步骤S21包括以下步骤:S2101、执行候选标记集合初始化操作,对于已标记样本xi∈Dl,其候选标记集合即为其真实标记,而对于未标记样本xj∈Du,其候选标记集合先初始化为0,对于候选标记集合S的第i行、第k列元素Sik,其具体初始化过程如公式(1):其中yi表示xi的真实标记,k表示标记空间的第k个类别,yi=k表示yi对应于标记空间的第k个类别;S2102、将未标记样本编号j作为变量设为1;S2103、判断j的值是否小于等于u,若是,则进入步骤S2104,否则该候选标记估计过程结束;S2104、在已标记数据集中查找未标记样本xj的k近邻样本,并将其在数据集中索引表示为集合使用高斯核函数计算xj与其k近...

【专利技术属性】
技术研发人员:张敏灵王敬
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1