当前位置: 首页 > 专利查询>江南大学专利>正文

基于最小二乘支持向量机技术的偏向性分类及参数寻优方法技术

技术编号:9198513 阅读:234 留言:0更新日期:2013-09-26 02:40
本发明专利技术提供了一种基于最小二乘支持向量机技术的偏向性分类器和参数寻优方法,采用最小二乘支持向量机作为分类器推广能力好且适用于实时性要求较高的场合;改进了虚拟少数类过采样算法,去除了孤立样本的影响,突出边界样本的重要性,使得分类具有一定的偏向性,即瑕疵产品被误分为合格产品的概率降低;在最小二乘支持向量机参数寻优方面,先采用耦合模拟退火算法进行参数初步寻优,再此基础上使用网格算法进行精细搜索,不仅使得在训练最小二乘支持向量机模型时参数寻优时间缩短,而且分类准确度更高,提高了分类性能。

【技术实现步骤摘要】
基于最小二乘支持向量机技术的偏向性分类及参数寻优方法
本专利技术涉及机器视觉检测中的模式识别领域,具体是指一种通过最小二乘支持向量机技术实现对工业产品的偏向性分类及最小二乘支持向量机的参数寻优方法。
技术介绍
机器视觉技术是计算机学科的一个重要分支,经过三十多年突发猛进的发展,凭借其速度快、精度高、永不疲劳的优点,在工业生产流水线上,逐步代替人工视觉检测,在降低人力成本的同时又可实现对产品质量的严格控制。模式识别作为机器视觉的一个重要领域,一种分类准确率高,实时性能好的分类器对于产品合格率的控制起着至关重要的作用。实际生产中,应尽最大的可能性使得瑕疵产品不被分为合格产品,而在保证整体分类准确率的前提下允许小部分合格产品被分为瑕疵产品。贝叶斯分类器可以综合先验信息和样本信息,但是先验信息来源于经验或者以前的实验结论,没有确定的理论依据作支持;此外该方法处理数据复杂性高,时间和空间消耗较大,无法满足对实时性要求较高的场合。神经网络分类器存在一些不足之处,一方面它需要较长的训练时间,不适用于复杂的问题;另一方面可能陷入局部极小值解。而最小二乘支持向量机是基于统计学习理论的结构风险最小化原则和VC维理论,在得到全局最优解的同时具有非常好的推广能力。在工业生产过程中,合格产品出现的概率远远大于瑕疵产品出现的概率,比较难以获得较多的瑕疵产品样本用于训练,或者合格产品与瑕疵产品的类分布差异较大,这两种情况可能导致在线分类时数量较少的瑕疵产品被错分为合格产品,致使合格产品混入瑕疵产品,影响了产品的整体质量。对多数类样本的欠采样学习和对少数类样本的过采样学习是从数据层面处理训练样本不均衡导致的分类偏斜问题的两种重要途径。虚拟少数类过采样算法避免了随机过抽样算法中由于盲目复制样本带来的过学习问题,但没有很好的考虑到孤立点样本、边界样本分布稀少对不平衡数据中少数类分类性能的影响。最小二乘支持向量机的分类性能受到多种因素影响,其中惩罚参数和核函数类型及参数的选择对其性能影响较大。网格搜索法虽然能够找到在交叉验证意义下的最高分类正确率对应的最佳参数组合[gam,sig],但是计算时间复杂度大,算法效率相对较低。遗传算法和粒子群算法易陷入局部最优,或全局最优的计算量偏大。模拟退火算法理论上是具有概率的全局优化性能。耦合模拟退火算法在模拟退火算法的基础之上考虑到了通过能量耦合在一起的若干当前状态,具有并行性,在改进了最优参数的同时使得收敛速度不会下降,但往往需要经过很多次退火才能寻找到最优解,时间消耗较大。
技术实现思路
本专利技术的目的在于基于最小二乘支持向量机技术,设计一种带有偏向性、分类准确度高、适用于实时性要求较高场合的分类器。为达此目的,本专利技术基于最小二乘支持向量机技术的偏向性分类和参数寻优的技术方案如下:该分类器基于最小二乘支持向量机技术;采用改进的虚拟少数类过采用算法,先使用K近邻算法(K取5)去除孤立样本点,再对边界样本点进行过采样,人工增加了瑕疵样本的数量,且使样本分布范围一定程度上向合格样本扩散,产生更适合于偏向性分类的训练样本数据;使用耦合模拟退火算法,进行两次退火,对最小二乘支持向量机核函数参数sig和惩罚参数gam进行初步寻优,在初步寻优所得参数组合的邻域,采用网格算法进行精细搜索;对比两次搜索得到的参数,确定最终的最优参数组合;整个流程包括去除孤立样本模块、虚拟少数类样本过采样模块、模拟退火算法模块、网格算法模块、参数对比模块。优选实施例,去除孤立样本模块的输入为包含有合格样本和瑕疵样本的原训练数据,采用K近邻算法(K取5)计算每个样本xi的5个最近邻,如果5个最近邻的类别均与xi的类别不同,则删去xi,经过此模块处理,去除了原始训练样本数据中的孤立样本,并将结果输送到虚拟少数类样本过采样模块。优选实施例,虚拟少数类样本过采样模块对每个瑕疵样本计算其5个最近邻,倘若其中有三个近邻属于合格样本,则判定该瑕疵样本为边界样本;对边界样本进行过采样,即在边界样本与其近邻的三个合格样本之间人工合成新的瑕疵样本,并加入到训练样本数据中,作为最小二乘支持向量机训练时的输入数据。优选实施例,模拟退火算法模块,对最小二乘支持向量机核函数sig和惩罚参数gam组合进行初步寻优,采用K(K取10)折交叉验证每一组参数解对应的误分率,即将训练数据分成数量大致相等的10个子集,每个子集数据集分别做一次训练集,其余9个子集作为验证集,使用训练集进行学习得到的最小二乘支持向量机模型对验证集进行预测,以10次验证所得的误分率的均值做为该组解的误分率,取误分率最低对应的那组参数组合做为最优参数,进行两次退火获得初步最优参数组合[sig,gam]。优选实施例,网格算法模块在sig和gam的邻域以步长0.2进行精细搜索,其中两个参数的寻优范围分别为:sig∈(exp{log(sig)-1.5},exp{log(sig)+1.5})gam∈(exp{log(gam)-2},exp{log(gam)+2})采用K(K取10)折交叉验证每一组参数解对应的误分率,取误分率最低对应的那组参数组合作为最优参数。优选实施例,参数对比模块中将耦合模拟退火算法所得的参数组合与网格算法所得结果进行比较,取较低误分率对应的那组参数作为最终的最优参数组合;如果相同的最低误分率对应多组参数,则取gam最低的那组参数做为最优参数,避免模型过学习。本专利技术的有益效果:本专利技术提供了一种基于最小二乘支持向量机技术的偏向性分类器和参数寻优方法,采用最小二乘支持向量机作为分类器推广能力好且适用于实时性要求较高的场合;改进了虚拟少数类过采样算法,去除了孤立样本的影响,突出边界样本的重要性,使得分类具有一定的偏向性,即瑕疵产品被误分为合格产品的概率降低;在最小二乘支持向量机参数寻优方面,先采用耦合模拟退火算法进行参数初步寻优,在此基础上使用网格算法进行精细搜索,不仅使得在训练最小二乘支持向量机模型时参数寻优时间缩短,而且分类准确度更高,提高了分类性能。附图说明图1本专利技术整体示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合具体实施例,并参照附图,对本专利技术作进一步详细说明。本专利技术的基本思路是:一款离线训练、在线检测且分类准确率高,实时性能好的分类器对于产品合格率的控制起着至关重要的作用。在实际生产中,总是希望瑕疵产品尽量不被分为合格产品,而在保证整体分类准确率的前提下允许小部分合格产品被分为瑕疵产品。本专利技术采用基于统计学习理论的结构风险最小化原则和VC维理论的最小二乘支持向量机作为分类器。在解决小样本、非线性和高维模式识别有许多优势,具有非常好的推广能力,满足实时性要求较高的场合。在实际生产中比较难以获得较多的瑕疵产品样本用于分类器的训练,或者合格产品与瑕疵产品的类分布差异较大,这两种情况可能导致在线分类时数量较少的瑕疵产品被错分为合格产品,致使合格产品混入瑕疵产品,影响了产品的整体质量。本专利技术先删除孤立样本、在此基础上找出5个近邻中有三个是合格产品的瑕疵产品做为边界样本,人工产生新瑕疵样本。传统的最小二乘支持向量机参数寻优方法,存在一定的局限性。本专利技术先采用耦合模拟退火算法两次退火,获得初步最优参数,在初步最优参数的基础上用网格算法进行精细搜索,获得最优参数本文档来自技高网
...
基于最小二乘支持向量机技术的偏向性分类及参数寻优方法

【技术保护点】
一种基于最小二乘支持向量机技术的偏向性分类及参数寻优方法,其特征是,实现分类过程中降低对瑕疵的误分率和对最小二乘支持向量机核参数及惩罚参数的优化;该分类器基于最小二乘支持向量机技术;采用改进的虚拟少数类过采用算法,先使用K近邻算法(K取5)去除孤立样本点,再对边界样本点进行过采样,产生适合于训练的样本数据;使用耦合模拟退火算法,进行两次退火,对最小二乘支持向量机核函数参数sig和惩罚参数gam进行初步寻优,在初步寻优所得参数组合的邻域,采用网格算法进行精细搜索;对比两次搜索得到的参数,确定最终的最优参数组合;整个算法包括以下几个模块:去除孤立样本模块,避免在过采样时受到噪声点影响,产生新的噪声点;虚拟少数类样本过采样模块,利用改进的虚拟少数类过采样(SMOTE)算法找出瑕疵产品的边界样本,在边界样本和合格产品之间进行过采样,人工合成新的瑕疵样本;模拟退火算法模块,利用耦合模拟退火(CSA)算法对最小二乘支持向量机核参数和惩罚参数进行初步寻优,获得初步参数值;网格算法模块,在耦合模拟退火算法得到的初步解邻域使用网格法进一步寻找最优解;参数对比模块,比较耦合模拟退火算法与网格搜索算法得到的两组参数所对应的误分率,取较低误分率对应的那组参数作为最终的最优参数组合。...

【技术特征摘要】
1.一种基于最小二乘支持向量机技术的偏向性分类及参数寻优方法,适用于实时性要求较高场合的分类器,其特征在于,包括以下步骤:(1):所述步骤(1)中,输入为包含有合格样本和瑕疵样本的原训练数据,采用K近邻算法计算每个样本xi的5个最近邻,如果5个最近邻的类别均与xi的类别不同,则删去xi,经此处理,去除了原始训练样本数据中的孤立样本,并将结果输送到步骤(2)虚拟少数类过采样算法(SMOTE)中;(2):所述步骤(2)中,对每个瑕疵样本计算其5个最近邻,倘若其中有三个近邻属于合格样本,则判定该瑕疵样本为边界样本;对边界样本进行过采样,即在边界样本与其近邻的三个合格样本之间人工合成新的瑕疵样本,并加入到训练样本数据中,作为步骤(3)中最小二乘支持向量机训练时的输入数据;(3):所述步骤(3)中,采用耦合模拟退火算法对最小二乘支持向量机核函数参数...

【专利技术属性】
技术研发人员:白瑞林张振尧吉峰
申请(专利权)人:江南大学无锡信捷电气股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1