当前位置: 首页 > 专利查询>湖北大学专利>正文

一种多分类样本分类器的生成方法、装置及存储介质制造方法及图纸

技术编号:22330772 阅读:34 留言:0更新日期:2019-10-19 12:24
本发明专利技术涉及一种多分类样本分类器的生成方法、装置及存储介质,所述方法包括:获取包含d类训练样本集Dtrain重新标记后的d个二类训练集Di=α(1≤α≤d);从训练集Di=1中随机抽取N个样本数据得到初始样本集

Generation method, device and storage medium of a multi classification sample classifier

【技术实现步骤摘要】
一种多分类样本分类器的生成方法、装置及存储介质
本专利技术涉及人工智能领域,尤其涉及一种多分类样本分类器的生成方法、装置及存储介质。
技术介绍
支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器。在各领域的模式识别问题中有广泛应用,包括人像识别、文本分类、笔迹识别、生物信息学等。支持向量机最初是由Vapnik等人针对二分类问题提出的。因为实际应用中的绝大多数数据并不是只有两类的,于是研究出将支持向量机推广到多分类问题的方法。第一种是运用两类支持向量机的方法,如使用OAA-SVM,OAO-SVM和DAG-SVM进行定量分析。但OAO和DAG方法都存在着潜在方差增大的问题。第二种是通过多种规划,一次性考虑所有类别的方法,即AIO-SVM算法。这种方法通常考虑到所有的类关系来解决学习问题,将整个解决方法转化为一个单独的二次规划。尽管理论上是可行的,但迄今为止缺乏有效的训练算法。对于现有的多分类算法,Rifkin和Klautau(2004)指出,虽然存在大量更复杂的多分类方法,但这些方法优于OAA-SVM方法的实验证据要么非常缺乏,要么是实验控制或测量不当。因此,对现有的较好的多分类器如OAA-SVM分类器进行改进与优化,解决在类别与数据量较大时多分类算法训练时存在非常耗时和计算复杂度过高等问题变得非常值得。
技术实现思路
本专利技术所要解决的技术问题是提供一种多分类样本分类器的生成方法、装置及存储介质,解决现有的较好的多分类样本分类器如OAA-SVM分类器对类别较多、容量较大的数据进行分类器的生成时存在非常耗时和计算复杂度高等问题。本专利技术解决上述技术问题的技术方案如下:所述多分类样本分类器的生成方法,包括以下步骤:S1,获取包含d类的训练样本集Dtrain,将d类训练样本集Dtrain中的第i类样本重新标记为+1,其他(d-1)类所有样本重新标记为-1,获得d个二类样本集Di=α其中1≤α≤d,且α∈N+;S2,获取从样本集Di=1中随机抽取的N个样本得到初始样本集利用支持向量机对所述初始样本集训练,获得初始模型从样本集Di=1中随机获取并接收一个当前样本Zti=1;S3,在样本集Di=1中随机抽取一个候选样本Z*i=1,利用当前样本Zti=1与初始模型定义候选样本Z*i=1的接收概率,依概率接收Z*i=1并作为当前样本Zti=1,重复N-1次后得到马氏样本集S4,利用支持向量机训练马氏样本集获得基于Di=1的二分类模型并将其替代初始模型S5,重复执行S3至S4步k-1次,最终输出基于Di=1的二分类模型Fi=1;S6,重复执行步骤S2至S5,依次获取基于Di=2至Di=d的最终分类模型Fi=2至Fi=d;S7,利用Fi=1、Fi=2至Fi=d构建最终分类模型F=(Fi=1,Fi=2,……,Fi=d)。优选地,所述多分类样本分类器的生成方法中所述S2步骤之前还包括如下步骤:S201,获取训练集Dtrain的样本容量n;S202,根据预设公式n=(k+1)N,获取每一次马氏抽样数目N,其中k为预设常数,代表马尔可夫抽样训练次数,且k∈N+。优选地,所述多分类样本分类器的生成方法中所述S3步骤具体包括如下步骤:S31,从训练集Di=1中随机地抽取一个样本Zti=1并接收作为当前样本;S32,在样本集Di=1中随机抽取一个候选样本Z*i=1,并根据当前样本Zti=1与初始模型定义候选样本Z*i=1接收概率βi=1,其中,式中l()是支持向量机模型的损失函数;S33,根据接收概率按照预设条件决定是否接收样本Z*i=1并存入马氏样本集中,所述预设条件为:若βi=1<1,则接收概率为并依接收概率将样本Z*i=1存入马氏样本集中;若βi=1=1,或βi=1<1,则接收概率为P2=βi=1,并依接收概率将样本Z*i=1存入马氏样本集中;若βi=1>1,则拒绝接收候补样本,并返回执行所述根据接收概率按照预设条件决定是否接收样本Z*i=1并存入马氏样本集中的步骤;若连续a个样本Z*i=1被拒绝,则接收概率为P3=min{1,aβi=1};若连续n1个样本Z*i=1被拒绝,则将第n1个被拒绝的样本Z*i=1存入马氏样本集中;其中,为样本Zti=1的标签,为样本Z*i=1的标签;a与n1为预设常数。优选地,所述多分类样本分类器的生成方法中所述预设条件还包括:当接收样本Z*i=1存入马氏样本集后,若马氏样本集中的样本容量小于N时,则将接收的样本Z*i=1作为当前样本,并返回循环执行S32和S33,直至马氏样本集中的样本容量为N,得到马氏样本集优选地,所述多分类样本分类器的生成方法中S7步骤具体包括如下步骤:S71,计算Fi=1、Fi=2至Fi=d的值;S72,将Fi=1、Fi=2至Fi=d中的最大值对应的所属类别作为最终类别输出。本专利技术解决上述技术问题还提供一种多分类样本分类器的生成装置,所述多分类样本分类器的生成装置包括:训练集获取模块、初始模型生成模块、接收筛选模块、中间分类模型生成模块、第一迭代更新模块、第二迭代更新模块及最终分类模型构建模块;训练集获取模块,用于获取包含d类的训练样本集Dtrain,将d类训练样本集Dtrain中的第i类样本重新标记为+1,其他(d-1)类所有样本重新标记为-1,获得d个二类样本集Di=α其中1≤α≤d,且α∈N+;初始模型生成模块,用于获取从样本集Di=1中随机抽取的N个样本得到初始样本集利用支持向量机对所述初始样本集训练,获得初始模型从样本集Di=1中随机获取并接收一个当前样本Zti=1;接收筛选模块,用于在样本集Di=1中随机抽取一个候选样本Z*i=1,利用当前样本Zti=1与初始模型定义候选样本Z*i=1的接收概率,依概率接收Z*i=1并作为当前样本Zti=1,重复N-1次后得到马氏样本集中间分类模型生成模块,利用支持向量机训练马氏样本集获得基于Di=1的二分类模型并将其替代初始模型第一迭代更新模块,用于重复执行S3至S4步k-1次,最终输出基于Di=1的二分类模型Fi=1;第二迭代更新模块,用于重复执行步骤S2至S5依次获取基于Di=2至Di=d的最终分类模型Fi=2至Fi=d;最终分类模型构建模块,用于重复执行步骤S2至S5,依次获取基于Di=2至Di=d的最终分类模型Fi=2至Fi=d;优选的,所述多分类样本分类器的生成装置还包括:样本容量获取模块,用于获取训练集Dtrain的样本容量n;计算模块,用于根据预设公式n=(k+1)N,获取每一次马氏抽样数目N,其中k为预设常数,代表马尔可夫抽样训练次数,且k∈N+。优选的,所述多分类样本分类器的生成装置还包括:第一抽样模块,用于从训练集Di=1中随机地抽取一个样本Zti=1并接收作为当前样本;第二抽样模块,用于在样本集Di=1中随机抽取一个候选样本Z*i=1,并根据当前样本Zti=1与初始模型定义候选样本Z*i=1接收概率βi=1,其中,式中l()是支持向量机模型的损失函数;马氏样本接收模块,用于根据接收概率按照预设条件决定是否接收样本Z*i=1并存入马氏样本集中,所述预设条件为:若βi=1<1,则接收概率为并依接收概率将样本Z*i=1存入马氏样本集中;若βi=1=1,或βi=1<1,则接收概率为P2=βi本文档来自技高网...

【技术保护点】
1.一种多分类样本分类器的生成方法,其特征在于,包括以下步骤:S1,获取包含d类的训练样本集Dtrain,将d类训练样本集Dtrain中的第i类样本重新标记为+1,其他(d‑1)类所有样本重新标记为‑1,获得d个二类样本集Di=α其中1≤α≤d,且α∈N

【技术特征摘要】
1.一种多分类样本分类器的生成方法,其特征在于,包括以下步骤:S1,获取包含d类的训练样本集Dtrain,将d类训练样本集Dtrain中的第i类样本重新标记为+1,其他(d-1)类所有样本重新标记为-1,获得d个二类样本集Di=α其中1≤α≤d,且α∈N+;S2,获取从样本集Di=1中随机抽取的N个样本得到初始样本集利用支持向量机对所述初始样本集训练,获得初始模型从样本集Di=1中随机获取并接收一个当前样本Zti=1;S3,在样本集Di=1中随机抽取一个候选样本Z*i=1,利用当前样本Zti=1与初始模型定义候选样本Z*i=1的接收概率,依概率接收Z*i=1并作为当前样本Zti=1,重复N-1次后得到马氏样本集S4,利用支持向量机训练马氏样本集获得基于Di=1的二分类模型并将其替代初始模型S5,重复执行S3至S4步k-1次,最终输出基于Di=1的二分类模型Fi=1;S6,重复执行步骤S2至S5,依次获取基于Di=2至Di=d的最终分类模型Fi=2至Fi=d;S7,利用Fi=1、Fi=2至Fi=d构建最终分类模型F=(Fi=1,Fi=2,……,Fi=d)。2.根据权利要求1的多分类样本分类器的生成方法,其特征在于,所述多分类样本分类器的生成方法中所述S2步骤之前还包括如下步骤:S201,获取训练集Dtrain的样本容量n;S202,根据预设公式n=(k+1)N,获取每一次马氏抽样数目N,其中k为预设常数,代表马尔可夫抽样训练次数,且k∈N+。3.根据权利要求2的多分类样本分类器的生成方法,其特征在于,S3具体包括如下步骤:S31,从训练集Di=1中随机地抽取一个样本Zti=1并接收作为当前样本;S32,在样本集Di=1中随机抽取一个候选样本Z*i=1,并根据当前样本Zti=1与初始模型定义候选样本Z*i=1接收概率βi=1,其中,式中l()是支持向量机模型的损失函数;S33,根据接收概率按照预设条件决定是否接收样本Z*i=1并存入马氏样本集中,所述预设条件为:若βi=1<1,则接收概率为并依接收概率将样本Z*i=1存入马氏样本集中;若βi=1=1,或βi=1<1,则接收概率为P2=βi=1,并依接收概率将样本Z*i=1存入马氏样本集中;若βi=1>1,则拒绝接收候补样本,并返回执行所述根据接收概率按照预设条件决定是否接收样本Z*i=1并存入马氏样本集中的步骤;若连续a个样本Z*i=1被拒绝,则接收概率为P3=min{1,aβi=1};若连续n1个样本Z*i=1被拒绝,则将第n1个被拒绝的样本Z*i=1存入马氏样本集中;其中,为样本Zti=1的标签,为样本Z*i=1的标签;a与n1为预设常数。4.根据权利要求3的多分类样本分类器的生成方法,其特征在于,所述预设条件还包括:当接收样本Z*i=1存入马氏样本集后,若马氏样本集中的样本容量小于N时,则将接收的样本Z*i=1作为当前样本,并返回循环执行S32和S33,直至马氏样本集中的样本容量为N,得到马氏样本集5.根据权利要求3所述的多分类样本分类器的生成方法,其特征在于,所述步骤S7具体包括如下步骤:S71,计算Fi=1、Fi=2至Fi=d的值;S72,将Fi=1、Fi=2至Fi=d中的最大值对应的所属类别作为最终类别输出。6.一种多分类样本分类器的生成装置,其特征在于,包括:训练...

【专利技术属性】
技术研发人员:邹斌殷悦徐婕段钰泽
申请(专利权)人:湖北大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1