【技术实现步骤摘要】
一种用于在线学习的样本分类方法及模型更新方法
本申请涉及数据处理领域,尤其涉及一种用于在线学习的样本分类方法及模型更新方法。
技术介绍
在机器学习的训练阶段,有类别标签的样本非常稀缺,而没有类别标签的样本的获取则相对容易,且数量众多。由于半监督学习在训练阶段结合了没有类别标签的样本和少量有类别标签的样本,与全部使用类别标签的样本的监督学习相比,半监督学习可以在保证模型精度的同时,降低了训练成本。在线学习算法可以通过获取正确的类别标签以及监督模型的预测标签,对监督模型进行在线更新,在线学习方法主要用于一些可以实时获得数据标注的系统中,而在没有用户反馈的系统中,在线学习则需要解决正确的类别标签如何获得的问题,在一种实现方式中,可以通过基于图的半监督学习模型获取正确的类别标签。在传统的基于图的半监督学习中,通过构造一个权重图,将各个样本(包括有类别标签的样本和没有类别标签的样本)作为图中的节点,将样本之间的相似程度作为权重图中边的权重,并通过基于图的半监督学习算法将权重图中的标签信息从有类别标签的样本逐步传递到没有 ...
【技术保护点】
1.一种用于在线学习的样本分类方法,其特征在于,包括:/n获取目标样本集合,所述目标样本集合包括多个训练样本和预测样本,其中,每个所述训练样本对应一个第一类别标签;/n根据所述第一类别标签确定所述多个训练样本的成对约束;/n确定满足所述成对约束的半正定矩阵;/n确定所述目标样本集合中每两个样本的马氏距离,其中所述马氏距离包括所述半正定矩阵;/n根据所述每两个样本的马氏距离通过基于图的半监督学习算法确定所述预测样本的第二类别标签。/n
【技术特征摘要】
1.一种用于在线学习的样本分类方法,其特征在于,包括:
获取目标样本集合,所述目标样本集合包括多个训练样本和预测样本,其中,每个所述训练样本对应一个第一类别标签;
根据所述第一类别标签确定所述多个训练样本的成对约束;
确定满足所述成对约束的半正定矩阵;
确定所述目标样本集合中每两个样本的马氏距离,其中所述马氏距离包括所述半正定矩阵;
根据所述每两个样本的马氏距离通过基于图的半监督学习算法确定所述预测样本的第二类别标签。
2.根据权利要求1所述的方法,其特征在于,所述成对约束包括:
最小化所述第一类别标签相同的所述训练样本之间的马氏距离平方和,且任意两个第一类别标签不同的所述训练样本的马氏距离大于或等于第一非负值。
3.根据权利要求1所述的方法,其特征在于,所述成对约束包括:
最小化所述第一类别标签相同的所述训练样本之间的马氏距离平方和,且最大化所述第一类别标签不同的所述训练样本之间的马氏距离平方和。
4.根据权利要求1所述的方法,其特征在于,所述成对约束包括:
最大化所述第一类别标签不同的所述训练样本之间的马氏距离平方和,且任意两个第一类别标签相同的所述训练样本的马氏距离小于或等于第二非负值。
5.根据权利要求1至4任一所述的方法,其特征在于,所述根据每两个样本的马氏距离通过基于图的半监督学习算法确定所述预测样本的第二类别标签,包括:
根据高斯核函数和所述马氏距离确定每两个所述样本的相似度;
根据所述相似度确定每两个所述样本之间的标签转移概率;
根据所述标签转移概率通过标签扩展算法确定所述预测样本的第二类别标签。
6.一种模型更新方法,其特征在于,包括:
获取目标样本集合,所述目标样本集合包括多个训练样本和预测样本,其中,每个所述训练样本对应一个第一类别标签;
根据监督学习模型确定所述预测样本的第三类别标签;
根据所述第一类别标签确定所述多个训练样本的成对约束;
确定满足所述成对约束的半正定矩阵;
确定所述目标样本集合中每两个样本的马氏距离,其中所述马氏距离包括所述半正定矩阵;
根据所述每两个样本的马氏距离通过基于图的半监督学习算法确定所述预测样本的第二类别标签;
根据所述第二类别标签和所述第三类别标签确定所述监督学习模型的损失值;
根据所述损失值通过在线学习算法更新所述监督学习模型。
7.根据权利要求6所述的方法,其特征在于,所述根据损失值通过在线学习算法更新所述监督学习模型,包括:
确定所述预测样本的样本数量;
若所述样本数量等于预设值,则根据所述损失值通过在线学习算法更新所述监督学习模型。
8.根据权利要求6或7所述的方法,其特征在于,所述监督学习模型为决策树模型、支持向量机模型或深度学习模型。
9.根据权利要求6至8中任一所述的方法,其特征在于,所述在线学习算法为随机梯度下降算法或小批量梯...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。