一种适用于无标签不平衡数据流的在线主动学习方法技术

技术编号：21200977 阅读：65 留言：0更新日期：2019-05-25 01:33

本发明专利技术提供了一种适用于无标签不平衡数据流的在线主动学习方法，包括：无标签数据流时序的输入线性分类器中进行预测，其中数据流的类别具有高度不平衡问题，即正类样本数量稀少；根据提出的非对称访问策略，线性分类器针对不平衡数据，动态地决定需要被标注标签的样本；根据提出的非对称更新策略，线性分类器利用错误预测的标注数据更新线性分类器，并利用样本的二阶信息提高学习效率；本发明专利技术的一种适用于无标签不平衡数据流的在线主动学习方法利用样本的二阶信息，提出了新的非对称策略；该非对称策略同时考虑样本的标注和模型的更新，能够更好地解决样本的类别不平衡问题，并提升基于流数据的主动学习模型的分类性能。

An Online Active Learning Method for Unlabeled Unbalanced Data Stream

The invention provides an on-line active learning method for unlabeled unbalanced data streams, which includes: prediction in an input linear classifier of unlabeled data streams with time series, in which the class of data streams is highly unbalanced, i.e., the number of positive class samples is scarce; according to the proposed asymmetric access strategy, the linear classifier dynamically determines the need for unbalanced data. According to the proposed asymmetric updating strategy, the linear classifier updates the linear classifier by using the labeled data of error prediction, and improves the learning efficiency by using the second-order information of the samples; An online active learning method for unlabeled unbalanced data streams of the present invention uses the second-order information of the samples, and proposes a new asymmetric strategy; The asymmetric strategy is based on the second-order information of the samples. Considering the labeling of samples and updating of models at the same time, it can better solve the class imbalance problem of samples and improve the classification performance of active learning model based on stream data.

全部详细技术资料下载

【技术实现步骤摘要】
一种适用于无标签不平衡数据流的在线主动学习方法
本专利技术涉及在线学习和半监督学习
，具体涉及一种适用于无标签不平衡数据流的在线主动学习方法。
技术介绍
近年来，人工智能及相关产业正迅速发展壮大，成为学术界、工业界以及世界各国政府关注的焦点。最近，国务院发布了《新一代人工智能发展规划》，突出了人工智能研究和产业的国家战略地位。在互联网行业，在线学习技术得到了飞速发展，并在多个应用领域取得了长足进展。然而，现有在线学习技术尚存在诸多挑战。首先，原始流数据是无标签的，并且数据的标注代价往往非常高昂。如何在标注预算受限的情况下，选择最具判别力的数据进行标注，并训练一个性能良好的学习器是在线学习及其工业应用的重要问题。其次，大量实际任务场景中，数据的类别往往是不平衡的，即正类数据远远少于负类数据。如何解决样本的类别不平衡问题也是工业应用亟待解决的关键问题。
技术实现思路
有鉴于此，为解决上述现有技术中的问题，本专利技术提供了一种适用于无标签不平衡数据流的在线主动学习方法，针对不平衡数据提出非对称访问策略，动态地决定需要标注标签的样本；为有效更新模型，该方法进一步提出非对称更新策略，并利用样本的二阶信息高效地更新模型；同时对实际分类应用中所存在的标注数据稀疏、样本不平衡、流数据等问题具有较好的解决能力。为实现上述目的，本专利技术的技术方案如下。一种适用于无标签不平衡数据流的在线主动学习方法，包括以下步骤：步骤1、无标签数据流时序地输入线性分类器中进行预测，其中数据流的类别具有高度不平衡问题，通常设定正类样本为类别稀少样本；步骤2、根据提出的非对称访问策略，线性分类...

【技术保护点】
1.一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，包括以下步骤：步骤1、获取无标签数据流，时序地输入线性分类器中进行预测，其中数据流的类别具有高度不平衡问题，设定正类样本为类别稀少样本；步骤2、根据提出的非对称访问策略，线性分类器针对无标签不平衡数据，时序地决定需要被标注标签的样本；步骤3、根据提出的非对称更新策略，线性分类器利用错误预测的标注数据更新线性分类器，并利用样本的二阶信息提高学习效率。

【技术特征摘要】
2018.12.31 CN 20181165253131.一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，包括以下步骤：步骤1、获取无标签数据流，时序地输入线性分类器中进行预测，其中数据流的类别具有高度不平衡问题，设定正类样本为类别稀少样本；步骤2、根据提出的非对称访问策略，线性分类器针对无标签不平衡数据，时序地决定需要被标注标签的样本；步骤3、根据提出的非对称更新策略，线性分类器利用错误预测的标注数据更新线性分类器，并利用样本的二阶信息提高学习效率。2.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，所述步骤1中，所述无标签数据流表示为其中代表样本的特征数量为d，T表示无标签样本的总数；可标注标签的样本预算为B个，标签的类别为yt∈{-1，+1}，则正类样本yt＝+1的数量远远少于负类样本yt＝-1，所述线性分类器的具体使用方法为：步骤11、所述线性分类器表示为其满足多变量高斯分布其中μ表示线性分类器w的均值，而∑表示线性分类器w的方差；步骤12、所述线性分类器的分类预测表示为其中sign(·)表示当则否则步骤13、所述线性分类器的预测结果表示为：若则线性分类器分类正确，否则线性分类器的分类错误。3.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，所述步骤2中非对称访问策略的步骤如下：步骤21、基于样本的二阶信息∑即线性分类器的方差，计算线性分类器对当前样本的置信度；步骤22、基于置信度，计算当前样本的非对称访问参数；步骤23、基于非对称访问参数，进行伯努利采样，获取其采样值；步骤24、如果该采样值为1，则判定需要访问该样本的标签；反之，则不需要。4.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，所述步骤3中非对称更新策略的步骤如下：步骤31...

【专利技术属性】
技术研发人员：吴庆耀，张一帆，谭明奎，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人