一种适用于无标签不平衡数据流的在线主动学习方法技术

技术编号:21200977 阅读:65 留言:0更新日期:2019-05-25 01:33
本发明专利技术提供了一种适用于无标签不平衡数据流的在线主动学习方法,包括:无标签数据流时序的输入线性分类器中进行预测,其中数据流的类别具有高度不平衡问题,即正类样本数量稀少;根据提出的非对称访问策略,线性分类器针对不平衡数据,动态地决定需要被标注标签的样本;根据提出的非对称更新策略,线性分类器利用错误预测的标注数据更新线性分类器,并利用样本的二阶信息提高学习效率;本发明专利技术的一种适用于无标签不平衡数据流的在线主动学习方法利用样本的二阶信息,提出了新的非对称策略;该非对称策略同时考虑样本的标注和模型的更新,能够更好地解决样本的类别不平衡问题,并提升基于流数据的主动学习模型的分类性能。

An Online Active Learning Method for Unlabeled Unbalanced Data Stream

The invention provides an on-line active learning method for unlabeled unbalanced data streams, which includes: prediction in an input linear classifier of unlabeled data streams with time series, in which the class of data streams is highly unbalanced, i.e., the number of positive class samples is scarce; according to the proposed asymmetric access strategy, the linear classifier dynamically determines the need for unbalanced data. According to the proposed asymmetric updating strategy, the linear classifier updates the linear classifier by using the labeled data of error prediction, and improves the learning efficiency by using the second-order information of the samples; An online active learning method for unlabeled unbalanced data streams of the present invention uses the second-order information of the samples, and proposes a new asymmetric strategy; The asymmetric strategy is based on the second-order information of the samples. Considering the labeling of samples and updating of models at the same time, it can better solve the class imbalance problem of samples and improve the classification performance of active learning model based on stream data.

【技术实现步骤摘要】
一种适用于无标签不平衡数据流的在线主动学习方法
本专利技术涉及在线学习和半监督学习
,具体涉及一种适用于无标签不平衡数据流的在线主动学习方法。
技术介绍
近年来,人工智能及相关产业正迅速发展壮大,成为学术界、工业界以及世界各国政府关注的焦点。最近,国务院发布了《新一代人工智能发展规划》,突出了人工智能研究和产业的国家战略地位。在互联网行业,在线学习技术得到了飞速发展,并在多个应用领域取得了长足进展。然而,现有在线学习技术尚存在诸多挑战。首先,原始流数据是无标签的,并且数据的标注代价往往非常高昂。如何在标注预算受限的情况下,选择最具判别力的数据进行标注,并训练一个性能良好的学习器是在线学习及其工业应用的重要问题。其次,大量实际任务场景中,数据的类别往往是不平衡的,即正类数据远远少于负类数据。如何解决样本的类别不平衡问题也是工业应用亟待解决的关键问题。
技术实现思路
有鉴于此,为解决上述现有技术中的问题,本专利技术提供了一种适用于无标签不平衡数据流的在线主动学习方法,针对不平衡数据提出非对称访问策略,动态地决定需要标注标签的样本;为有效更新模型,该方法进一步提出非对称更新策略,并利用样本的二阶信息高效地更新模型;同时对实际分类应用中所存在的标注数据稀疏、样本不平衡、流数据等问题具有较好的解决能力。为实现上述目的,本专利技术的技术方案如下。一种适用于无标签不平衡数据流的在线主动学习方法,包括以下步骤:步骤1、无标签数据流时序地输入线性分类器中进行预测,其中数据流的类别具有高度不平衡问题,通常设定正类样本为类别稀少样本;步骤2、根据提出的非对称访问策略,线性分类器针对无标签不平衡数据,时序地决定需要被标注标签的样本;步骤3、根据提出的非对称更新策略,线性分类器利用错误预测的标注数据更新线性分类器,并利用样本的二阶信息提高学习效率。进一步地,所述步骤1中,所述无标签数据流可表示为其中代表样本的特征数量为d,T表示无标签样本的总数。可标注标签的样本预算为B个,标签的类别为yt∈{-1,+1},则正类样本yt=+1的数量远远少于负类样本yt=-1,所述线性分类器的具体使用方法为:步骤11、所述线性分类器表示为其满足多变量高斯分布其中μ表示线性分类器w的均值,而Σ表示线性分类器w的方差;步骤12、所述线性分类器的分类预测表示为其中sign(·)表示当则否则步骤13、所述线性分类器的预测结果表示为:若则线性分类器分类正确,否则线性分类器的分类错误。进一步地,所述步骤2中非对称访问策略的步骤如下:步骤21、基于样本的二阶信息Σ(即线性分类器的方差),计算线性分类器对当前样本的置信度;步骤22、基于置信度,计算当前样本的非对称访问参数;步骤23、基于非对称访问参数,进行伯努利采样,获取其采样值;步骤24、如果该采样值为1,则判定需要访问该样本的标签;反之,则不需要。进一步地,所述步骤3中非对称更新策略的步骤如下:步骤31、获取错误预测的有标签数据;步骤32、基于错误预测的有标签数据,计算该数据的非对称损失函数值;步骤33、基于非对称损失函数值和优化策略,更新线性分类器的方差Σ:其中,γ代表正则化系数;步骤34:基于非对称损失函数值和优化策略,更新线性分类器的均值μ:μt+1=μt-ηΣt+1gt其中,η代表线性分类器的学习率,gt代表非对称损失函数值lt的梯度,对损失函数求导即可得。进一步地,通过以下公式计算置信度:其中,η代表线性分类器的学习率,γ代表正则化系数,ρmax=max(1,ρ),ρ代表正类样本的误分类代价;此外,代表模型对当前样本的信心,代表了模型对当前样本的熟悉程度,从而更好的计算置信度ct。基于置信度ct,通过以下公式计算当前样本的非对称访问参数:qt=|pt|+ct其中,代表线性分类器对当前样本的预测边际,|pt|,即该预测边际的绝对值,代表了模型对该样本的预测距离分类平面的距离;基于非对称访问参数qt,进行伯努利采样,获取采样值;对于不同类别的样本设定不同的采样系数,通过以下表示采样概率:其中,δ+为正类预测(即pt≥0)的采样系数,δ_为负类预测(即pt<0)的采样系数;通过该采样概率进行伯努利采样,获取采样值Zt。进一步地,通过以下公式计算非对称损失函数值:其中,ρ代表正类样本的误分类权重;代表指示函数,即满足条件则为1,否则为0。基于该非对称损失函数值lt和优化策略,通过步骤3.3和步骤3.4的公式更新线性分类器的方差Σ和均值μ:与现有技术比较,本专利技术的一种适用于无标签不平衡数据流的在线主动学习方法具有以下优点和技术效果:本专利技术利用样本的二阶信息,提出了新的非对称策略;该非对称策略同时考虑样本的标注和模型的更新,能够更好地解决样本的类别不平衡问题,并提升基于流数据的主动学习模型的分类性能。附图说明图1为实施例中一种适用于无标签不平衡数据流的在线主动学习方法的流程示意图。图2为实施例中非对称访问策略的流程示意图。图3为实施例中非对称更新策略的流程示意图。图4为实施例中该在线主动学习方法的验证结果。具体实施方式下面将结合附图和具体的实施例对本专利技术的具体实施作进一步说明。需要指出的是,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。如图1所示,为本实施例的一种适用于无标签不平衡数据流的在线主动学习方法的流程示意图,包括以下步骤:步骤1、无标签数据流时序地输入线性分类器中进行预测,其中数据流的类别具有高度不平衡问题,通常设定正类样本为类别稀少样本;步骤2、根据提出的非对称访问策略,线性分类器针对无标签不平衡数据,时序地决定需要被标注标签的样本;步骤3、根据提出的非对称更新策略,线性分类器利用错误预测的标注数据更新线性分类器,并利用样本的二阶信息提高学习效率。所述步骤1中,所述无标签数据流可表示为其中代表样本的特征数量为d,T表示无标签样本的总数。可标注标签的样本预算为B个,标签的类别为yt∈{-1,+1},则正类样本yt=+1的数量远远少于负类样本yt=-1,所述线性分类器的具体使用方法为:步骤11、所述线性分类器表示为其满足多变量高斯分布其中μ表示线性分类器w的均值,而Σ表示线性分类器w的方差;步骤12、所述线性分类器的分类预测表示为其中sign(·)表示当则否则步骤13、所述线性分类器的预测结果表示为:若则线性分类器分类正确,否则线性分类器的分类错误。如图2所示,为本专利技术的非对称访问策略的流程示意图,所述步骤2中非对称访问策略的步骤如下:步骤21、基于样本的二阶信息Σ(即线性分类器的方差),计算线性分类器对当前样本的置信度:其中,η代表线性分类器的学习率,γ代表正则化系数,ρmax=max(1,ρ),ρ代表正类样本的误分类代价;此外,代表模型对当前样本的信心,代表了模型对当前样本的熟悉程度,从而更好的计算置信度ct。步骤22、基于置信度ct,通过以下公式计算当前样本的非对称访问参数:qt=|pt|+ct其中,代表线性分类器对当前样本的预测边际,|pt|,即该预测边际的绝对值,代表了模型对该样本的预测距离分类平面的距离;步骤23、基于非对称访问参数qt,进行伯努利采样,获取采样值;对于不同类别的样本设定不同的采样系数,通过以下表示采样概率:其中,δ+为正类预测(即pt≥0)的采样系数,本文档来自技高网...

【技术保护点】
1.一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,包括以下步骤:步骤1、获取无标签数据流,时序地输入线性分类器中进行预测,其中数据流的类别具有高度不平衡问题,设定正类样本为类别稀少样本;步骤2、根据提出的非对称访问策略,线性分类器针对无标签不平衡数据,时序地决定需要被标注标签的样本;步骤3、根据提出的非对称更新策略,线性分类器利用错误预测的标注数据更新线性分类器,并利用样本的二阶信息提高学习效率。

【技术特征摘要】
2018.12.31 CN 20181165253131.一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,包括以下步骤:步骤1、获取无标签数据流,时序地输入线性分类器中进行预测,其中数据流的类别具有高度不平衡问题,设定正类样本为类别稀少样本;步骤2、根据提出的非对称访问策略,线性分类器针对无标签不平衡数据,时序地决定需要被标注标签的样本;步骤3、根据提出的非对称更新策略,线性分类器利用错误预测的标注数据更新线性分类器,并利用样本的二阶信息提高学习效率。2.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,所述步骤1中,所述无标签数据流表示为其中代表样本的特征数量为d,T表示无标签样本的总数;可标注标签的样本预算为B个,标签的类别为yt∈{-1,+1},则正类样本yt=+1的数量远远少于负类样本yt=-1,所述线性分类器的具体使用方法为:步骤11、所述线性分类器表示为其满足多变量高斯分布其中μ表示线性分类器w的均值,而∑表示线性分类器w的方差;步骤12、所述线性分类器的分类预测表示为其中sign(·)表示当则否则步骤13、所述线性分类器的预测结果表示为:若则线性分类器分类正确,否则线性分类器的分类错误。3.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,所述步骤2中非对称访问策略的步骤如下:步骤21、基于样本的二阶信息∑即线性分类器的方差,计算线性分类器对当前样本的置信度;步骤22、基于置信度,计算当前样本的非对称访问参数;步骤23、基于非对称访问参数,进行伯努利采样,获取其采样值;步骤24、如果该采样值为1,则判定需要访问该样本的标签;反之,则不需要。4.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,所述步骤3中非对称更新策略的步骤如下:步骤31...

【专利技术属性】
技术研发人员:吴庆耀张一帆谭明奎
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1