一种基于步长控制的在线软间隔核学习算法制造技术

技术编号:20222272 阅读:106 留言:0更新日期:2019-01-28 20:37
本发明专利技术涉及一种基于步长控制的在线软间隔核学习算法(OSKL)。通过引入核函数构造非线性分类器,引入软间隔参数控制噪声数据的影响,并基于在线梯度下降算法的基本框架设计具有鲁棒性的在线核学习算法。该算法能够降低模型存储空间、有效控制噪声影响、模型更新的计算复杂度仅为O(1),具有实时性强、易于实现等优势,是处理和分析数据流问题的天然工具。本发明专利技术在线学习算法,克服了基于批处理技术的传统分类方法无法高效处理数据流的问题,也克服了现有在线学习算法如Kernel Perceptron和Pegasos等算法无法有效抑制噪声影响的问题。

【技术实现步骤摘要】
一种基于步长控制的在线软间隔核学习算法
本专利技术属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理的方法,具体地说,涉及一种基于步长控制的在线软间隔核学习算法(OSKL)。
技术介绍
分类问题是数据挖掘与机器学习领域研究的经典问题。传统的基于批处理技术的分类方法先收集数据,基于收集数据构建学习模型,并选择优化算法求解模型,得到分类器。伴随电子商务、社交媒体、移动互联网、物联网等技术的快速发展,越来越多的应用场景需要实时处理大规模数据流。传统基于批处理技术的分类方法在处理大规模数据流问题时存在计算复杂度高、模型更新效率低等诸多不足。在线学习基于逐点学习的基本框架,通过动态更新模型逐点学习数据信息,模型更新一次的计算复杂度仅为O(1),具有计算复杂度低、模型更新效率高、实时性强等优势,是处理和分析数据流问题的天然工具。此外,大规模标签数据中难免有部分错误标签,而这些错误标签会严重影响分类器的构造和效果。因此,亟需设计一种具有容错性能的数据流挖掘算法。
技术实现思路
本专利技术的目的在于针对现有基于批处理技术的分类方法无法高效处理数据流分类问题,而在线学习算法无法抑制噪音影响,提出了一种基于本文档来自技高网...

【技术保护点】
1.一种基于步长控制的在线软间隔核学习算法(OSKL),其特征在于含有以下步骤:(一)初始化模型参数、决策函数和模型核函数。(二)以one‑by‑one的形式采集数据流,利用决策函数ft‑1对数据流样本xt的标签进行预测。(三)得到真实标签yt后,计算该样本点的hinge损失

【技术特征摘要】
1.一种基于步长控制的在线软间隔核学习算法(OSKL),其特征在于含有以下步骤:(一)初始化模型参数、决策函数和模型核函数。(二)以one-by-one的形式采集数据流,利用决策函数ft-1对数据流样本xt的标签进行预测。(三)得到真实标签yt后,计算该样本点的hinge损失(四)计算更新步长τt:若lt=0,则τt=0;若lt>0,则(五)更新分类器决策函数ft=ft-1+τtytk(xt,·)。2.根据权利要求1所述的一种基于步长控制的在线软间隔核学习算法,其特征在于,在步骤(一)中,具体操作流程为:确定训练样本集合和测试样本集合,初始化模型阈值参数C,初始化二分类问题决策函数f0=0,选择高斯核函数作为模型核函数k(·,·),即k(xi,xj)=exp(-‖xi-xj‖2/d),其中d取为样本输入x的维数。3.根据权利要求1所述的一种基于步长控制的在线软间隔核学习算法,其特征在于:步骤(二)中,利用分类决策函数预测数据流样本类别标签的具体步骤为:以one-by-one的形式采集数据流{(xt,yt)}t=1,2,...,xt表示第t个样本输入,yt表示第t个样本输出(类别标签)。利用决策函数ft-1预测数据流中第t个样本的标签:4.根据权利要求1所述的一种基于步长控制的在线软间隔核学习算法,其特征在于,在步骤(三)中,计算样本损失的具体操作流程为:指定二分类问题中最为常用的hinge函数作为损失函数,计算该样本点(xt,yt)的hinge损失:5.根据权利要求1所述的一种基于步长控...

【专利技术属性】
技术研发人员:宋允全雷鹤杰吕聪梁锡军渐令
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1