一种基于步长控制的在线软间隔核学习算法制造技术

技术编号:20222272 阅读:90 留言:0更新日期:2019-01-28 20:37
本发明专利技术涉及一种基于步长控制的在线软间隔核学习算法(OSKL)。通过引入核函数构造非线性分类器,引入软间隔参数控制噪声数据的影响,并基于在线梯度下降算法的基本框架设计具有鲁棒性的在线核学习算法。该算法能够降低模型存储空间、有效控制噪声影响、模型更新的计算复杂度仅为O(1),具有实时性强、易于实现等优势,是处理和分析数据流问题的天然工具。本发明专利技术在线学习算法,克服了基于批处理技术的传统分类方法无法高效处理数据流的问题,也克服了现有在线学习算法如Kernel Perceptron和Pegasos等算法无法有效抑制噪声影响的问题。

【技术实现步骤摘要】
一种基于步长控制的在线软间隔核学习算法
本专利技术属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理的方法,具体地说,涉及一种基于步长控制的在线软间隔核学习算法(OSKL)。
技术介绍
分类问题是数据挖掘与机器学习领域研究的经典问题。传统的基于批处理技术的分类方法先收集数据,基于收集数据构建学习模型,并选择优化算法求解模型,得到分类器。伴随电子商务、社交媒体、移动互联网、物联网等技术的快速发展,越来越多的应用场景需要实时处理大规模数据流。传统基于批处理技术的分类方法在处理大规模数据流问题时存在计算复杂度高、模型更新效率低等诸多不足。在线学习基于逐点学习的基本框架,通过动态更新模型逐点学习数据信息,模型更新一次的计算复杂度仅为O(1),具有计算复杂度低、模型更新效率高、实时性强等优势,是处理和分析数据流问题的天然工具。此外,大规模标签数据中难免有部分错误标签,而这些错误标签会严重影响分类器的构造和效果。因此,亟需设计一种具有容错性能的数据流挖掘算法。
技术实现思路
本专利技术的目的在于针对现有基于批处理技术的分类方法无法高效处理数据流分类问题,而在线学习算法无法抑制噪音影响,提出了一种基于步长控制的在线软间隔核学习算法,该方法能够降低模型存储空间,有效控制噪声影响,显著提高模型更新效率,满足实际应用问题的实时性需求。根据本专利技术一实施例,提供了一种基于步长控制的在线软间隔核学习算法,含有以下步骤:(一)初始化模型参数、决策函数和模型核函数。(二)采集数据流,利用分类决策函数预测数据流样本的类别标签。(三)获取样本真实标签,指定损失函数,计算样本损失值。(四)计算分类器决策函数的更新步长。(五)基于在线梯度下降算法基本框架,更新分类器决策函数。在根据本专利技术实施例的学习算法,在步骤(一)中,模型初始化的具体步骤为:确定训练样本集合和测试样本集合,初始化模型阈值参数C,初始化二分类问题决策函数f0=0,指定高斯核函数为模型核函数k(·,·)。在根据本专利技术实施例的学习算法中,步骤(二)中,利用分类决策函数预测数据流样本类别标签的具体步骤为:以one-by-one的形式采集数据流{(xt,yt)}t=1,2,…,xt表示第t个样本输入,yt表示第t个样本输出(类别标签)。利用决策函数ft-1预测数据流中第t个样本的标签:在根据本专利技术实施例的学习算法中,在步骤(三)中,计算样本损失的具体操作流程为:指定二分类问题中最为常用的hinge函数作为损失函数,计算该样本点(xt,yt)的hinge损失:在根据本专利技术实施例的学习算法中,在步骤(四)中,计算更新步长τt的具体操作流程为:基于如下两点考虑确定更新步长τt:①以尽可能高的可信度实现对当前样本xt点的正确分类,即达到零损失(lt=0);②尽可能保证算法的稳定性,即减小决策函数在更新过程中的波动。最优步长τt为下述优化问题的解:另一方面,大规模采样数据中难免有大量错误标签数据,这些错误标签会严重影响决策函数的构造和相应分类器的效果。为此,我们引入软间隔阈值参数控制更新步长τt≤C,进而限制错误标签数据对模型的影响,保证分类器的稳定性。基于步骤(三)中计算所得样本点(xt,yt)的hinge损失lt,以及步长控制参数C,确定更新步长τt为:在根据本专利技术实施例的学习算法,在步骤(五)中,更新分类器决策函数的具体操作流程为:基于步骤(四)中计算的更新步长τt,在在线梯度下降算法的基本框架下,对决策函数ft进行更新得到新的决策函数ft。本专利技术涉及一种基于步长控制的在线软间隔核学习算法。通过引入hinge损失函数、高斯核函数、软间隔阈值参数C,建立在线核学习分类器,实现了对数据流的在线预测。该方法采用软间隔阈值参数使得分类器决策函数的更新更加平滑,具有鲁棒性。与经典在线学习算法KernelPerceptron和Pegesos相比,所提出的算法OSKL显著提升了分类精度。本专利技术在线分类算法OSKL,能够灵活处理数据流场景下的分类问题,与传统基于批处理技术的静态分类方式相比,大幅度降低了计算复杂度,减少了模型运行时间。附图说明附图1一种基于步长控制的在线软间隔核学习算法示意图附图2三种算法在基准数据集上的分类精度比较示意图附图3三种算法在含噪音标签数据集ijcnn上的平均测试分类精度比较示意图附图4三种算法在含噪音标签数据集codrna上的平均测试分类精度比较示意图附图5三种算法在含噪音标签数据集eegeye上的平均测试分类精度比较示意图具体实施方式以下结合附图对本专利技术具体步骤进行解释说明。实施例一:以原始基准数据集ijcnn、codrna、eegeye上的在线分类实验为例进行说明。如图1所示为根据本专利技术实施例提供的一种基于步长控制的在线软间隔核学习算法的示意图,该在线学习算法含有以下步骤:步骤一:初始化模型参数、决策函数和模型核函数。其具体步骤为:初始化模型阈值参数C=0.05,初始化二分类问题决策函数f0=0,指定高斯核函数为模型核函数即k(xi,xj)=exp(-‖xi-xj‖2/d),其中d取为样本输入x的维数。步骤二:采集数据流,利用分类决策函数预测数据流样本的类别标签。其具体步骤为:one-by-one的形式采集数据流{(xt,yt)}t=1,2,…,xt表示第t个样本输入,yt表示第t个样本输出(类别标签)。利用决策函数ft-1预测数据流中第t个样本的标签:步骤三:获取样本真实标签,指定损失函数,计算样本损失值。其具体步骤为:指定二分类问题中最为常用的hinge函数作为损失函数,计算该样本点(xt,yt)的hinge损失:步骤四:计算分类器决策函数的更新步长。其具体步骤为:引入软间隔阈值参数控制更新步长τt≤C,进而限制错误标签数据对模型的影响,保证分类器的稳定性。基于步骤(三)中计算所得样本点(xt,yt)的hinge损失lt,以及步长控制参数C,确定第t步的更新步长τt为:步骤五:基于在线梯度下降算法基本框架,更新分类器决策函数。其具体步骤为:基于步骤(四)中计算的更新步长τt,在在线梯度下降算法的基本框架下,对决策函数ft进行更新得到新的决策函数ft。图2为采用本专利技术在线学习算法与现有在线学习算法KernelPerceptron和Pegasos在基准数据集ijcnn、基准数据集codrna和基准数据集eegeye进行预测的平均在线测试精度比较示意图。由图2可以看出,本专利技术在线学习算法在上述3个基准数据集合上的平均测试精度一致优于其它两种方法。实施例二:在原始基准数据集ijcnn、codrna、eegeye的基础上,加入噪音标签,在含噪音标签的数据集上训练在线分类器。与实施例一不同的是,在本实施例中,步骤一中,随机选取数据集的30%作为测试集,其余数据加入噪音标签后构造训练集。具体地,我们将样本索引分别模20、模10、模5,并将余数为0的样本点标签乘以-1得到噪音标签数据。图3-5为在含噪音标签的数据集ijcnn、codrna、eegeye上训练在线分类器KernelPerceptron、Pegasos和OSKL,并在原30%数据集无噪音测试数据集上的平均分类表现(平均测试精度,ACA)。实验结果表明,随着以mod20、mod10和mod5索引的训练样本的噪音增大本文档来自技高网...

【技术保护点】
1.一种基于步长控制的在线软间隔核学习算法(OSKL),其特征在于含有以下步骤:(一)初始化模型参数、决策函数和模型核函数。(二)以one‑by‑one的形式采集数据流,利用决策函数ft‑1对数据流样本xt的标签进行预测。(三)得到真实标签yt后,计算该样本点的hinge损失

【技术特征摘要】
1.一种基于步长控制的在线软间隔核学习算法(OSKL),其特征在于含有以下步骤:(一)初始化模型参数、决策函数和模型核函数。(二)以one-by-one的形式采集数据流,利用决策函数ft-1对数据流样本xt的标签进行预测。(三)得到真实标签yt后,计算该样本点的hinge损失(四)计算更新步长τt:若lt=0,则τt=0;若lt>0,则(五)更新分类器决策函数ft=ft-1+τtytk(xt,·)。2.根据权利要求1所述的一种基于步长控制的在线软间隔核学习算法,其特征在于,在步骤(一)中,具体操作流程为:确定训练样本集合和测试样本集合,初始化模型阈值参数C,初始化二分类问题决策函数f0=0,选择高斯核函数作为模型核函数k(·,·),即k(xi,xj)=exp(-‖xi-xj‖2/d),其中d取为样本输入x的维数。3.根据权利要求1所述的一种基于步长控制的在线软间隔核学习算法,其特征在于:步骤(二)中,利用分类决策函数预测数据流样本类别标签的具体步骤为:以one-by-one的形式采集数据流{(xt,yt)}t=1,2,...,xt表示第t个样本输入,yt表示第t个样本输出(类别标签)。利用决策函数ft-1预测数据流中第t个样本的标签:4.根据权利要求1所述的一种基于步长控制的在线软间隔核学习算法,其特征在于,在步骤(三)中,计算样本损失的具体操作流程为:指定二分类问题中最为常用的hinge函数作为损失函数,计算该样本点(xt,yt)的hinge损失:5.根据权利要求1所述的一种基于步长控...

【专利技术属性】
技术研发人员:宋允全雷鹤杰吕聪梁锡军渐令
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1