一种时频联合的支持向量机半监督学习方法技术

技术编号:15400307 阅读:85 留言:0更新日期:2017-05-24 10:01
本发明专利技术公开了一种时频联合的支持向量机半监督学习方法,具体步骤为:步骤一:训练初始SVM分类器;步骤二:利用SVM分类器C

A semi supervised learning method of support vector machines based on time frequency combination

The invention discloses a time frequency combination support vector machine semi supervised learning method, and the concrete steps are as follows: Step 1. Training an initial SVM classifier; step two: using the SVM classifier C;

【技术实现步骤摘要】
一种时频联合的支持向量机半监督学习方法
本专利技术涉及机器学习领域,尤其涉及一种时频联合的支持向量机半监督学习方法。
技术介绍
分类问题广泛存在于众多学科领域中,比如语音识别、图像识别、音频分类、文本分类等等。为了得到具有良好分类性能的分类器,通常需要用大量的已标注样本参与分类器的训练。但是标注样本的获取代价比较昂贵,比如说在语音识别领域,需要以音素为单位进行逐一标注,标注特别耗费时间和精力。样本的标注代价昂贵使得完全依靠人工标注来实现训练样本的标注变得不切实际,基于此,半监督学习技术应运而生。半监督学习是一个循环迭代的过程,其基本思想是:在每轮迭代过程中,寻找分类置信度高的样本由机器自动标注,机器是指能代替人进行标注工作的软硬件设备,标注后的样本加入训练集中重新训练分类器,以上过程迭代进行,直至满足停止准则。半监督学习是由机器自动标注,为了防止由于错误标注而引起的分类性能下降,寻找高置信度的样本成为半监督学习的关键所在。目前已有不少寻找高置信度样本的相关研究,在以支持向量机(SupportVectorMachines,SVM)为训练模型的半监督学习方法中,现有的算法一般都是在特征提取以后,在此特征空间中判断样本的置信度,这种在某一特征空间中判断样本置信度的方法一般效果较差,而联合两个甚至多个特征空间来判断样本的置信度的方法,其对样本置信度的判断会更加准确,因此本专利技术联合时域和频域两个特征空间判断样本的置信度,以找到真正高置信度的样本参与训练。
技术实现思路
本专利技术的目的就是为了解决上述问题,本专利技术提供一种时频联合的支持向量机半监督学习方法,它具有确保样本的高置信度,减少由于错误标注而引起的SVM分类性能下降的优点。为了实现上述目的,本专利技术采用如下技术方案:一种时频联合的支持向量机半监督学习方法,具体步骤为:步骤一:分别提取已标注样本的时域特征、频域特征、时域和频域特征,并分别训练初始SVM分类器C1、SVM分类器C2、SVM分类器C;步骤二:利用SVM分类器C1、SVM分类器C2从未标注样本集U中确定高置信度样本,组成高置信度样本集S;步骤三:将高置信度样本集S中的样本由机器自动标注后放入已标注样本集L中,机器是指能代替人进行标注工作的软硬件设备;步骤四:对更新的已标注样本集L重新提取时域特征和频域特征,并进行特征选择,重新训练SVM分类器C;步骤五:根据停止准则判断是退出循环还是继续迭代,继续迭代则返回步骤二。所述步骤一的具体步骤为:(1-1)从总样本集中随机选取一定数量的初始训练样本,人工标注后生成初始已标注样本集,将此初始已标注样本集分别赋给已标注样本集L1,已标注样本集L2和已标注样本集L;(1-2)对初始已标注样本集L1中的样本提取时域特征,并用这些样本训练初始SVM分类器C1;(1-3)对初始已标注样本集L2中的样本提取频域特征,并用这些样本训练初始SVM分类器C2;(1-4)对初始已标注样本集L中的样本提取时域特征和频域特征,然后进行特征选择,最后用这些样本训练初始SVM分类器C。所述步骤四和步骤(1-4)中特征选择的具体步骤为:(1-4-1)设当前样本共有d维特征,组成特征集合{F1,F2,…,Fd},对特征集合中的每一维特征Fi,i为自然数,从特征集合中求其K近邻,即求与Fi距离最近的K个特征,并求Fi与其K近邻之间的平均距离Di,i为自然数;(1-4-2)比较确定出具有最小Di值的那一维特征,记作F*,即:(1-4-3)保留F*,并将F*的K个最近邻特征从特征集合中删除;(1-4-4)判断是否满足min(Di)>ε,若满足则输出特征选择后的特征集合,否则转入步骤(1-4-1),ε是为平均距离Di设定的下限阈值。所述步骤二的具体步骤为:(2-1)假设样本xi到SVM分类器C1、SVM分类器C2的分类面的距离分别为d1(xi)、d2(xi),则按下式生成SVM分类器C1、SVM分类器C2的高置信度样本集S1、高置信度样本集S2:S1={xi|xi∈U,d1(xi)>Th1}S2={xi|xi∈U,d2(xi)>Th2}其中,Th1、Th2分别是SVM分类器C1、SVM分类器C2的距离阈值,U代表未标注样本集;(2-2)从高置信度样本集S1、高置信度样本集S2的交集中取SVM分类器C1、SVM分类器C2判别一致的样本组成高置信度样本集S,即:S={xi|y1(xi)=y2(xi),且xi∈(S1∩S2)}其中,y1(xi)、y2(xi)分别表示用SVM分类器C1、SVM分类器C2对样本xi进行分类时所得到的类标签,S1∩S2表示高置信度样本集S1和高置信度样本集S2的交集。所述步骤五的具体步骤为:(5-1)设第t-1次迭代后和第t次迭代后,SVM分类器C的分类性能分别为Pt-1和Pt,则SVM分类器C的分类性能变化率为:(5-2)设定SVM分类器C的分类性能变化率阈值为δ,若连续5次迭代的ηt值都小于δ时,则判别SVM分类器C收敛,因此退出循环,输出训练好的SVM分类器C;(5-3)若不满足步骤(5-2)的条件,则将高置信度样本集S中的样本分别加入SVM分类器C1、SVM分类器C2的已标注样本集L1、已标注样本集L2中,并提取更新的已标注样本集L1中的时域特征、更新的已标注样本集L2的频域特征,重新分别训练SVM分类器C1、SVM分类器C2,然后转入步骤二,进入下一轮迭代。本专利技术的有益效果:1.本专利技术联合时域和频域两个特征空间判断样本的置信度,其对样本置信度的判断比传统的基于单一特征空间的判断更加准确;2.由于对样本置信度的判断更加准确,因此本专利技术能减少由于错误标注而引起的分类器分类性能的下降;3.本专利技术提出的半监督学习方法在用于SVM分类器的训练时能够大幅度减少人工标注的工作量;4.本专利技术提出的半监督学习方法的思路并不局限于支持向量机分类器,而是具有很好的推广性,可以很容易地推广到其它分类器。附图说明图1为本专利技术实施例提出的时频联合的支持向量机半监督学习方法的流程图;图2为训练初始SVM分类器的结构框图;图3为特征选择的流程图;图4为联合SVM分类器C1、SVM分类器C2寻找高置信度样本,进而组成高置信度样本集S的流程图;具体实施方式下面结合附图对本专利技术作进一步说明。图1是本专利技术提出的时频联合的支持向量机半监督学习方法的流程图,具体包括如下5个步骤:步骤一训练初始SVM分类器;步骤二联合SVM分类器C1,SVM分类器C2寻找高置信度样本,组成高置信度样本集S;步骤三将高置信度样本集S中的样本由机器自动标注后放入SVM分类器C的已标注样本集L中;步骤四用更新的已标注样本集L重新训练SVM分类器C;步骤五根据停止准则判断是退出循环还是继续迭代。下面对每个步骤进行详细说明。步骤一训练初始SVM分类器下面首先介绍一下SVM分类器的原理,通过原理的介绍来阐述如何训练SVM分类器,以及如何用SVM分类器进行分类。SVM分类器是一种判别式两类分类器,其决策函数可以表达为:f(x)=wTφ(x)+b(1)w和b分别表示权值向量和偏斜量。φ(x)是非线性映射函数,用于将低维空本文档来自技高网...
一种时频联合的支持向量机半监督学习方法

【技术保护点】
一种时频联合的支持向量机半监督学习方法,其特征是,具体步骤为:步骤一:分别提取已标注样本的时域特征和频域特征,并分别训练初始SVM分类器C1、SVM分类器C2、SVM分类器C;步骤二:利用SVM分类器C1、SVM分类器C2从未标注样本集U中确定高置信度样本,组成高置信度样本集S;步骤三:将高置信度样本集S中的样本由机器自动标注后放入已标注样本集L中;步骤四:对更新的已标注样本集L重新提取时域特征和频域特征,并进行特征选择,重新训练SVM分类器C;步骤五:根据停止准则判断是退出循环还是继续迭代,继续迭代则返回步骤二;基于时频联合的支持向量机半监督学习方法来训练SVM分类器减小了人工标注的工作量,对样本置信度的判断更加准确;减少了错误标注引起的分类器分类性能的下降。

【技术特征摘要】
1.一种时频联合的支持向量机半监督学习方法,其特征是,具体步骤为:步骤一:分别提取已标注样本的时域特征和频域特征,并分别训练初始SVM分类器C1、SVM分类器C2、SVM分类器C;步骤二:利用SVM分类器C1、SVM分类器C2从未标注样本集U中确定高置信度样本,组成高置信度样本集S;步骤三:将高置信度样本集S中的样本由机器自动标注后放入已标注样本集L中;步骤四:对更新的已标注样本集L重新提取时域特征和频域特征,并进行特征选择,重新训练SVM分类器C;步骤五:根据停止准则判断是退出循环还是继续迭代,继续迭代则返回步骤二;基于时频联合的支持向量机半监督学习方法来训练SVM分类器减小了人工标注的工作量,对样本置信度的判断更加准确;减少了错误标注引起的分类器分类性能的下降。2.如权利要求1所述一种时频联合的支持向量机半监督学习方法,其特征是,所述步骤一的具体步骤为:(1-1)从总样本集中随机选取一定数量的初始训练样本,标注后生成初始已标注样本集,将此初始已标注样本集分别赋给已标注样本集L1,已标注样本集L2和已标注样本集L;(1-2)对初始已标注样本集L1中的样本提取时域特征,并用这些样本训练初始SVM分类器C1;(1-3)对初始已标注样本集L2中的样本提取频域特征,并用这些样本训练初始SVM分类器C2;(1-4)对初始已标注样本集L中的样本提取时域特征和频域特征,然后进行特征选择,最后用这些样本训练初始SVM分类器C。3.如权利要求2所述一种时频联合的支持向量机半监督学习方法,其特征是,所述步骤四和步骤(1-4)中特征选择的具体步骤为:(1-4-1)设当前样本共有d维特征,组成特征集合{F1,F2,…,Fd},对特征集合中的每一维特征Fi,i为自然数,从特征集合中求其K近邻,即求与Fi距离最近的K个特征,并求Fi与其K近邻之间的平均距离Di,i为自然数;(1-4-2)比较确定出具有最小Di值的那一维特征,记作F*,即:(1-4-3)保留F*,并将F*的K个最近邻...

【专利技术属性】
技术研发人员:冷严徐新艳
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1