一种耐噪在线多分类核学习算法制造技术

技术编号:20390706 阅读:57 留言:0更新日期:2019-02-20 03:10
本发明专利技术涉及一种基于自适应ramp损失函数的耐噪在线多分类核学习算法。通过引入核函数构造非线性多分类器,针对基于批处理技术的多分类方法无法高效处理数据流问题,而现有在线学习算法无法有效控制噪声样本的影响的问题,设计该耐噪在线多分类核学习算法。该方法能够减少参与模型计算的支持向量的数量,有效控制噪声影响,显著提高模型更新效率,提高噪声数据多分类问题的分类精度,满足实际应用问题的需求。本发明专利技术耐噪在线多分类核学习算法,克服了基于批处理技术的传统分类方法无法高效处理数据流的问题,也克服了现有在线学习算法如Perceptron和Pegasos等算法无法有效抑制噪声影响的问题,可高效应用于图片的场景分类等实际应用问题。

【技术实现步骤摘要】
一种耐噪在线多分类核学习算法
本专利技术属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理的方法,具体地说,涉及一种基于自适应ramp损失函数的耐噪在线多分类核学习算法。
技术介绍
多分类问题是数据挖掘与机器学习领域研究的经典问题。传统的批处理多分类方法先收集数据,基于一批数据构建学习模型,并选择优化算法得到多分类器。伴随电子商务、社交媒体、移动互联网、物联网等技术的快速发展,越来越多的实际问题所处理的数据具有数据流特性。传统批处理多分类方法在处理大规模流数据场景时存在计算复杂度高、模型更新效率低等诸多不足。在线学习算法通过动态更新模型,逐点学习样本信息,具有计算复杂度低、模型更新效率高、实时性强等优势,在处理和分析数据流问题时有优异的表现。此外,大规模标签数据中,由于人工标记的失误与数据固有的多标签特性,难免有部分错误标签,而这些错误标签会严重影响多分类器的分类效果。因此,亟需设计一种具有耐噪特性的在线多分类算法。
技术实现思路
本专利技术的目的在于针对现有基于批处理技术的多分类方法无法高效处理数据流多分类问题,而在线学习算法无法有效控制噪声样本的影响,提出了一种基于自适应ramp损失函数的耐噪在线多分类核学习算法。该方法能够减少参与模型计算的支持向量的数量,有效控制噪声影响,显著提高模型更新效率,提高噪声数据多分类问题的分类精度,满足实际应用问题的需求。根据本专利技术一实施例,提供了一种基于自适应ramp损失函数的耐噪在线多分类核学习算法,含有以下步骤:(一)选择合适的模型核函数并初始化多分类器决策函数;(二)采集数据流,利用当前多分类决策函数f(t-1)预测数据流样本xt的类别标签(三)获取样本xt真实标签yt,根据ramp自适应参数设置策略计算该样本点的ramp损失函数的自适应参数s;(四)计算该样本xt的自适应ramp损失;(五)根据样本的自适应ramp损失,更新分类器决策函数。在根据本专利技术实施例的学习算法,在步骤(一)中,模型初始化的具体步骤为:确定训练样本集合和测试样本集合,并根据具体数据特征选择合适的核函数初始化多分类问题决策函数f(0)=0。在根据本专利技术实施例的学习算法,步骤(二)中,利用多分类决策函数预测数据流样本类别标签的具体步骤为:以one-by-one的形式采集数据流样本xt,利用当前多分类决策函数f(t-1)预测数据流中第t个样本的类别标签:在根据本专利技术实施例的学习算法中,在步骤(三)中,计算样本的ramp损失函数的自适应参数s的具体步骤为:在根据本专利技术实施例的学习算法中,在步骤(四)中,得到样本xt及其真实标签yt后,计算样本xt的自适应ramp损失的具体步骤为:根据以下公式计算得到ramp损失:其中在根据本专利技术实施例的学习算法,在步骤(五)中,更新分类器决策函数的具体步骤为:根据以上得到的ramp自适应参数s以及自适应ramp损失lt,如果0<lt<1-s,则根据以下公式更新分类器决策函数:否则,不更新分类器决策函数,即f(t)=f(t-1)。本专利技术涉及一种基于自适应ramp损失的耐噪在线多分类核学习算法。通过引入ramp损失函数、ramp自适应参数设置策略、核函数,建立在线核学习多分类器,实现了对数据流的在线预测。该方法采用自适应ramp损失函数使得分类器处理更少的支持向量,具有稀疏性;使得噪声对分类器的影响得到控制,具有鲁棒性(耐噪性)。与经典在线学习算法Perceptron和Pegesos相比,所提出的算法显著提升了分类精度。本专利技术耐噪在线多分类核学习算法,能够灵活处理数据流场景下的多分类问题,大幅减少了参与计算的支持向量,降低了计算复杂度,降低了噪声对多分类器的分类效果的影响,具有良好的耐噪性质。附图说明附图1一种耐噪在线多分类核学习算法示意图附图2三种算法在基准数据集AID7dataset、OutdoorScenecategoriesdataset、UCMercedLandusedataset、AID30dataset进行预测的平均分类精度比较示意图附图3三种算法在噪声数据集Adultdataset上的平均分类精度(ACA)比较示意图具体实施方式以下结合附图对本专利技术具体步骤进行解释说明。实施例一:以基准数据集AID7dataset、OutdoorScenecategoriesdataset、UCMercedLandusedataset、AID30dataset上的在线多分类实验为例进行说明。如图1所示为根据本专利技术实施例提供的一种耐噪在线多分类核学习算法的示意图,该在线学习算法含有以下步骤:步骤一:选择合适的模型核函数并初始化多分类器决策函数。其具体步骤为:指定多项式核函数为模型核函数,即其中,参数γ设置为d取为样本x的维数;c0设置为0;多项式阶次p设置为1。初始化多分类问题决策函数f(0)=0。步骤二:采集数据流,利用当前决策函数预测数据流样本的类别标签。其具体步骤为:以one-by-one的形式采集数据流样本xt,利用当前多分类决策函数f(t-1)预测数据流中第t个样本的标签步骤三:获取样本真实标签,计算该样本点的ramp损失函数的自适应参数s。其具体步骤为:获取样本xt真实标签yt后,根据以下ramp自适应参数设置策略计算该样本点的ramp损失函数的自适应参数s:步骤四:计算该样本xt的自适应ramp损失。其具体步骤为:根据以下公式计算得到样本xt的自适应ramp损失:其中步骤五:根据样本的自适应ramp损失,更新分类器决策函数。其具体步骤为:根据以上得到的ramp自适应参数s以及自适应ramp损失lt,如果0<lt<1-s,则根据以下公式更新分类器决策函数:否则,不更新分类器决策函数,即f(t)=f(t-1)。图2为采用本专利技术在线学习算法与现有在线学习算法Perceptron和Pegesos在基准数据集AID7dataset、OutdoorScenecategoriesdataset、UCMercedLandusedataset、AID30dataset进行预测的平均分类精度比较示意图。由图2可以看出,本专利技术在线学习算法在上述4个基准数据集合上的平均分类精度一致优于其它方法。实施例二:与实施例一不同的是,在本实施例中,对于基于核函数的在线学习算法,我们采用RBF核函数其中,参数γ设置为d为样本x的维数。与实施例一不同的是,在本实施例中,在原始基准数据集Adultdataset的基础上,加入噪声标签,在含噪声标签的数据集上训练在线分类器。具体地,我们将分别随机选取5%,10%,15%,20%(即SNR95:5,SNR90:10,SNR85:15,SNR80:20)的样本改变标签作为噪声数据。图3为在含噪声数据的数据集Adultdataset上在线分类器Perceptron、Pegasos和基于自适应ramp损失函数的耐噪在线多分类核学习算法的平均测试精度(ACA)比较。实验结果表明,在上述四个噪声比例(SNR95:5,SNR90:10,SNR85:15,SNR80:20)数据中,我们提出的基于自适应ramp损失函数的耐噪在线多分类核学习算法的分类精度一致优于其他算法。上述实施例用来解释本专利技术,而不是对本专利技术进行限制,在本专利技术的精神和本文档来自技高网...

【技术保护点】
1.一种耐噪在线多分类核学习算法,其特征在于含有以下步骤:(一)选择合适的模型核函数并初始化多分类器决策函数;(二)以one‑by‑one的形式采集数据流,利用当前多分类决策函数f

【技术特征摘要】
1.一种耐噪在线多分类核学习算法,其特征在于含有以下步骤:(一)选择合适的模型核函数并初始化多分类器决策函数;(二)以one-by-one的形式采集数据流,利用当前多分类决策函数f(t-1)预测样本xt的标签(三)得到样本xt的真实标签yt后,根据ramp自适应参数设置策略计算该样本点的ramp损失函数的自适应参数s;(四)计算该样本xt的自适应ramp损失;(五)根据样本的自适应ramp损失,更新分类器决策函数。2.根据权利要求1所述的一种耐噪在线多分类核学习算法,其特征在于,在步骤(一)中,具体方法为:根据具体应用场景选择合适的核函数,并初始化多分类问题决策函数f(0)=0。3.根据权利要求1所述的一种耐噪在线多分类核学习算法,其特征在于:步骤(二)中,利用多分类决策函数预测数据流样本类别标签的具体步骤为:以one-by-one的形式采集数据流,利用决策函数f(t-1)预测样本xt的标签4.根据权利要求1所述的一种耐噪在线多分类核学习算法,其特征在于,在步骤(三)中,计算样本的ramp损失函数的自适应参数s的具体方法为:根据以下ramp自适应参数设置策略计算得到参数s。5.根据权利要求1所述的...

【专利技术属性】
技术研发人员:宋允全高富豪雷鹤杰梁锡军渐令
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1