一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法技术

技术编号:22022963 阅读:29 留言:0更新日期:2019-09-04 01:31
本发明专利技术公开了一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,该方法包括以下步骤:1)对包括已标记样本和未标记样本的所有样本,采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差;2)构建初始训练集XL,将初始训练集作为已标记样本集,并更新未标注样本集XU;3)构建初始的基于混合高斯核的直推式相关向量机模型GMM‑FRVM;4)基于GMM‑FRVM模型更新已标记样本集和未标记样本集;5)基于更新后的已标记样本集和未标记样本集重新训练GMM‑FRVM模型;6)采用最终的GMM‑FRVM模型完成所有样本的分类标记。本发明专利技术方法通过混合高斯模型和稀疏贝叶斯相结合的主动学习的手段,通过尽量少的人工标注获得较优的分类效果。

An Active Learning Classification Method Based on Mixture Gauss Model and Sparse Bayesian

【技术实现步骤摘要】
一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
本专利技术涉及机器学习领域,尤其涉及一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。
技术介绍
随着计算机相关技术的飞速发展,社会变得更加信息化,每天都会有大量的数据产生。在实际场景中,人们获得的大量数据都是未经标注标签的,传统监督学习方法在使用少部分有标签数据进行训练时因为样本规模小、信息少很难有较好的预测结果。人工标注样本需要消耗大量的时间和精力,甚至一些情况根本无法完成对大量样本的标注。基于这些问题,本专利技术提出了一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法。主动学习通过不断从样本中筛选最具有价值的样本进行标注来扩充样本集,以此达到通过利用较少的样本训练出性能优良的分类器。本专利技术采用的主动学习方法是基于池的主动学习方法,其过程包含初始化和循环查询两个阶段。在初始化阶段中,从未标记样本集中筛选出部分样本,提供给专家进行标注,形成训练集建立初始模型。循环查询阶段中,根据某种选择策略,每次从未标记样本集中选取包含信息量最大的部分样本进行标注,然后更新已标记样本集,并重新训练模型。如此循环往复,直到达到停止标准为止。混本文档来自技高网...

【技术保护点】
1.一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,包括以下步骤:1)对包括已标记样本和未标记样本的所有样本,采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差;2)在未标注样本集XU中分别随机选取离各个簇聚类中心点最近的点进行标注后作为初始样本点,构建初始训练集XL,将初始训练集作为已标记样本集,并更新未标注样本集XU;3)基于各个高斯分量及其对应协方差矩阵和混合系数构建混合高斯核函数,计算扩充的核矩阵,并构建初始的基于混合高斯核的直推式相关向量机模型GMM‑FRVM;4)基于GMM‑FRVM模型计算各个未标记样本的后验概率,根据样本后验概率选择不确定性最大...

【技术特征摘要】
1.一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,包括以下步骤:1)对包括已标记样本和未标记样本的所有样本,采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差;2)在未标注样本集XU中分别随机选取离各个簇聚类中心点最近的点进行标注后作为初始样本点,构建初始训练集XL,将初始训练集作为已标记样本集,并更新未标注样本集XU;3)基于各个高斯分量及其对应协方差矩阵和混合系数构建混合高斯核函数,计算扩充的核矩阵,并构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM;4)基于GMM-FRVM模型计算各个未标记样本的后验概率,根据样本后验概率选择不确定性最大的样本,对其进行标注并加入训练集,然后更新已标记样本集和未标记样本集;5)基于步骤4)中更新后的已标记样本集和未标记样本集重新训练GMM-FRVM模型,获得相关向量以及权重参数;如果满足终止条件,即得到最终的GMM-FRVM模型,否则,回到第4)步,重新计算;6)采用最终的GMM-FRVM模型完成所有样本的分类标记。2.根据权利要求1所述的基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,所述步骤1)中,对于所有样本,设高斯分量的个数是K,即聚类簇的个数为K,混合高斯模型表示为:其中,πk为每个分量的权重,也就是混合系数;x为样本,μk为每个高斯分量的均值,Σk为每个高斯分量的协方差,K为分量个数。3.根据权利要求1或2所述的基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,所述步骤1)中,所述采用混合高斯模型训练所有样本得到各个高斯分量的混合系数、均值和协方差,具体为:通过混合高斯模型训练所有样本,使用期望最大化方法,将众多未知参数设置成隐变量,计算求解如下公式得到样本集各个高斯分量的混合系数πk、均值μk和协方差矩阵Σk,其中,K为分量个数;4.根据权利要求1所述的基于混合高斯模型和稀疏贝叶斯的主动学习分类方法,其特征在于,所述步骤3)中构建初始的基于混合高斯核的直推式相关向量机模型GMM-FRVM,包括以下步骤:3.1)利用上述步骤得出的混合系数、混合高斯分量及协方差矩阵来构建混合高斯核函数,并初始化核参数γ;所述混合高斯核函数公式如下:其中,γ是高斯核函数中的超参数,xi,xj为样本点,πk和Σk为对应高斯分量混合系数和协方差;3.2)根据相关向量机的原理,其分类函数可以表示为:y(x,w)=σ(wTφ(x))=σ(Φw)(4...

【专利技术属性】
技术研发人员:刘芳马登峰王洪海李政颖陈钢赵洋
申请(专利权)人:武汉理工大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1