基于多视角主动学习的在线半监督分类方法及系统技术方案

技术编号:22077018 阅读:24 留言:0更新日期:2019-09-12 14:35
本发明专利技术涉及一种基于多视角主动学习的在线半监督分类方法及系统,所述在线半监督分类方法包括:步骤S1:获取当前时刻的多视角数据;步骤S2:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签

On-line semi-supervised classification method and system based on multi-view active learning

【技术实现步骤摘要】
基于多视角主动学习的在线半监督分类方法及系统
本专利技术涉及机器学习
,特别涉及一种基于多视角主动学习的在线半监督分类方法及系统。
技术介绍
随着信息技术的不断发展,从不同信息源、空间及模态获取到的数据越来越丰富,这些不同属性的数据构成多视角数据集。与单视角学习相比,多视角学习可发掘各视角有用特征来改善学习能力,因此多视角学习受到广泛的关注。在线学习能够有效处理实时数据流和大规模数据,是机器学习领域的一个研究热点。在线学习可以从数据流中增量地学习分类模型并且不重复使用之前的样本,适用于动态增长和大规模数据集。近年来,在线学习引起了越来越多的关注和重视,现有的方法包括感知器算法、在线被动攻击(Passiveattack,PA)算法和基于凸包顶点选择的支持向量机方法。PA算法因为性能好、可扩展性强、计算成本低而被广泛应用。然而,PA算法只适用于单视角数据。为此,Nie等提出一种多视角PA算法,其利用了视角间的一致性和互补性有效提升了分类精度。然而,上述两种方法在应用中有很大局限性,首先它们都属于被动学习方法,即需要获取每个样本的类标签;另外,类别数目需要固定并且事先知道,对动态变化数据并不适用。大数据为机器学习提供了丰富的原材料,这些海量的数据大部分是未标注的,而人工标注样本往往代价昂贵。主动学习的主要思想是挑选部分最有价值的数据进行标注,以实现在尽可能少的样本标记下获取尽可能高的精度。在此我们主要研究在线主动学习问题,其数据是以流的形式一个一个到达的。基于感知器的主动(PEA)学习方法仅使用错误分类的样本来更新分类模型,基于PA和随机规则的在线主动(PAA)学习算法对错误分类或具有低预测置信度的正确分类的样本都进行分类器更新。PAA解决了监督被动在线学习算法需要向每个新实例请求标签的问题。然而,主动学习规则是针对单视图数据而设计的,并且没有预先筛选的过程,导致筛选过程复杂、分类效率低。
技术实现思路
为了解决现有技术中的上述问题,即为了在线根据数据标签类别进行分类,以提高分类效率,本专利技术提供了一种基于多视角主动学习的在线半监督分类方法及系统。为实现上述目的,本专利技术提供了如下方案:一种基于多视角主动学习的在线半监督分类方法,所述在线半监督分类方法包括:步骤S1:获取当前时刻的多视角数据;步骤S2:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签及次大标签t表示当前时刻;步骤S3:根据所述地物类别标签及次大标签确定分类间隔qt;步骤S4:根据所述分类间隔qt,对分类器进行更新。可选地,所述多视角数据包括极化特征、颜色特征、纹理特征;其中,所述极化特征包括从极化合成孔径雷达SAR数据中提取的原始特征和基于极化分解的特征;所述颜色特征包括伪彩色图像元素、主导颜色权重及HSV图像和其直方图;所述纹理特征包括局部二值模式直方图,灰度共生矩阵,Gabor和小波变换系数。可选地,采用以下公式分别计算视角数据的地物类别标签及次大标签多视角预测函数:地物类别标签:多视角预测函数中次大得分对应的次大类别:其中,m为视角数据类别数量,i表示当前视角数据类别的序号,i=1,…,m;argmax{}表示取最大值函数,ri为权重系数,为t时刻分类器的权重矩阵,Y表示当前的类别标签集合,k是一个变量,ft,k表示预测向量ft的第k个元素的值。可选地,所述根据所述地物类别标签及次大标签确定分类间隔qt,具体包括:根据以下公式计算qt:其中,表示预测向量ft的第个元素的值,表示预测向量ft的第个元素的值。可选地,所述根据所述分类间隔qt,对分类器进行更新,具体包括:步骤S41:比较所述分类间隔qt与设定的间隔阈值∈的大小;步骤S42:如果所述分类间隔qt>间隔阈值∈,则当前视角数据为有标签数据,获取当前视角数据的真实标签yt,令步骤S43:根据所述有标签数据更新分类器;步骤S44:如果所述分类间隔qt≤间隔阈值∈,则确定当前视角数据的类别;步骤S45:根据所述当前视角数据的类别对分类器进行更新。可选地,所述确定当前视角数据的类别,具体包括:计算当前视角数据的概率;根据所述概率,生成服从伯努利分布概率的随机变量Zt;判断所述随机变量Zt的数值是否为1;如果是,则所述当前视角数据为有标签数据;否则,所述当前视角数据为无标签数据。可选地,所述计算当前视角数据的概率,具体包括:计算分别基于不同视角数据的地物类别标签根据不同视角数据的地物类别标签,判断各地物类别标签间是否存在分歧;根据判断结果,计算当前视角数据的概率:如果存在分歧,则根据公式计算概率;如果不存在分歧,则根据公式计算概率;其中,ηt与分别为非负数。可选地,所述根据所述当前视角数据的类别对分类器进行更新,具体包括:当所述当前视角数据为有标签数据时,确定所述当前视角数据是否为新类别:如果为新类别,则通过公式对所述分类器进行增量拓展,并执行步骤S43;其中,其中K为当前的类数,ni为第i个视角的维数,rand(·)表示生成均匀分布随机数;否则执行步骤S43;当所述当前视角数据为无标签数据时,计算多视角预测函数中最大和次大得分对应的类别,即通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型为:s.t.l(W;(xt,yt))≤ξ;其中l(W;(xt,yt))为损失函数,定义为ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,表示在b时刻第i个视角数据,是第i视角的两个数据和的距离度量,定义为对于无标签数据,令δt=0,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:根据以下公式计算辅助变量:更新分类器:可选地,所述步骤S43具体包括:根据计算多视角预测函数中得分最大的不相关类别;根据公式计算损失值lt,其中max{}表示取其中的最大值;若lt>0,通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型为:s.t.l(W;(xt,yt))≤ζ;其中l(W;(xt,yt))为损失函数,定义为ξ:表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,表示在b时刻第i个视角数据,是第i视角的两个数据和的距离度量,定义为对于有标签数据,δt=1,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:根据以下公式计算辅助变量:更新分类器:为实现上述目的,本专利技术还提供了如下方案:一种基于多视角主动学习的在线半监督分类系统,所述在线半监督分类系统包括:获取单元,用于获取当前时刻的多视角数据;标签确定单元,用于基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签及次大标签t表示当前时刻;间隔确定单元,用于根据所述地物类别标签及次大标签确定分类间隔qt;更新单元,用于根本文档来自技高网
...

【技术保护点】
1.一种基于多视角主动学习的在线半监督分类方法,其特征在于,所述在线半监督分类方法包括:步骤S1:获取当前时刻的多视角数据;步骤S2:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签

【技术特征摘要】
1.一种基于多视角主动学习的在线半监督分类方法,其特征在于,所述在线半监督分类方法包括:步骤S1:获取当前时刻的多视角数据;步骤S2:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签及次大标签t表示当前时刻;步骤S3:根据所述地物类别标签及次大标签确定分类间隔qt;步骤S4:根据所述分类间隔qt,对分类器进行更新。2.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述多视角数据包括极化特征、颜色特征、纹理特征;其中,所述极化特征包括从极化合成孔径雷达SAR数据中提取的原始特征和基于极化分解的特征;所述颜色特征包括伪彩色图像元素、主导颜色权重及HSV图像和其直方图;所述纹理特征包括局部二值模式直方图,灰度共生矩阵,Gabor和小波变换系数。3.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,采用以下公式分别计算视角数据的地物类别标签及次大标签多视角预测函数:地物类别标签:多视角预测函数中次大得分对应的次大类别:其中,m为视角数据类别数量,i表示当前视角数据类别的序号,i=1,…,m;argmax{}表示取最大值函数,ri为权重系数,为t时刻分类器的权重矩阵,Y表示当前的类别标签集合,k是一个变量,ft,k表示预测向量ft的第k个元素的值。4.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述根据所述地物类别标签及次大标签确定分类间隔qt,具体包括:根据以下公式计算qt:其中,表示预测向量ft的第个元素的值,表示预测向量ft的第个元素的值。5.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述根据所述分类间隔qt,对分类器进行更新,具体包括:步骤S41:比较所述分类间隔qt与设定的间隔阈值∈的大小;步骤S42:如果所述分类间隔qt>间隔阈值∈,则当前视角数据为有标签数据,获取当前视角数据的真实标签yt,令步骤S43:根据所述有标签数据更新分类器;步骤S44:如果所述分类间隔qt≤间隔阈值∈,则确定当前视角数据的类别;步骤S45:根据所述当前视角数据的类别对分类器进行更新。6.根据权利要求5所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述确定当前视角数据的类别,具体包括:计算当前视角数据的概率;根据所述概率,生成服从伯努利分布概率的随机变量Zt;判断所述随机变量Zt的数值是否为1;如果是,则所述当前视角数据为有标签数据;否则,所述当前视角数据为无标签数据。7.根据权利要求6所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述计算当前视角数据的概率,具体包括:计算分别基于不同视角数据的地物类别标签根据不同视角数据的地物类别标签,判断各地物类别标签间是否存在分歧;根据判断结果,计算当前视角数据的概率:如果存在分歧,则根据公式...

【专利技术属性】
技术研发人员:聂祥丽黄夏渊贾立好乔红张波
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1