一种基于深度贝叶斯学习的图像标记估计方法技术

技术编号:26506345 阅读:55 留言:0更新日期:2020-11-27 15:34
本发明专利技术提出了一种基于深度贝叶斯学习的图像标记估计方法,包括以下步骤:1)获取图像数据,将图像分发给网络上的标注者进行预标注,构造图像众包标记数据集;2)对图像做特征预提取处理,获得图像的fisher vector特征表示;3)搭建深度表示学习网络,构建标注生成过程的深度贝叶斯模型;4)将图像fisher vector特征及众包标记输入深度贝叶斯模型,基于图像和参数联合概率似然构造变分下界损失函数;5)基于自然梯度随机变分推断,端到端地对深度贝叶斯模型进行训练;6)返回模型输出的图像真实标记估计及各标注者的混淆矩阵。本发明专利技术克服了EM迭代式训练的低效率和非贝叶斯学习不可解释性的问题,提高了图像标记估计的效果。

【技术实现步骤摘要】
一种基于深度贝叶斯学习的图像标记估计方法
本专利技术涉及图像标注方法,具体涉及一种基于深度贝叶斯学习的图像标记估计方法。
技术介绍
图像分类识别模型的学习需要标记来进行训练,而对于许多真实世界的任务来说,获取图像的真实标记是不可能的,因为成本太高。另一方面,近年来众包已经证明自己是作为收集数据标注一种的可靠解决方案。随着AmazonMechanicalTurk和Crowdflower等众包服务平台的出现,众包已经被用于在短时间内收集众多领域的海量标注数据集。显然,利用众包来获取图像分类识别模型所需的图像标记,是一种可行的方法。然而,虽然众包拥有足够的可扩展性,但标注者提供的标记本质上是主观的,不同标注者之间可能存在大量的分歧,而且与标记相关的噪声会限制传统机器学习算法的性能。因此,如何从收集到的标记中估计出潜在的真实标记是众包的一个核心问题。为此已经提出了很多方法,它们有的只使用了标注信息,有的额外使用了数据特征信息。后者中有些方法采用启发式的优化方法,虽然克服了最大期望(ExpectationMaximum,EM)类算法的计算问题,但是其并不本文档来自技高网...

【技术保护点】
1.一种基于深度贝叶斯学习的图像标记估计方法,其特征在于,包括以下步骤:/n1)获取图像数据,将图像分发给网络上的标注者进行预标注,获得众包标记L;/n2)对图像做特征预提取处理,获得图像的fisher vector特征表示X;/n3)搭建深度表示学习网络,构建标注生成过程的深度贝叶斯模型;/n4)将图像fisher vector特征X及众包标记L输入深度贝叶斯模型,基于图像和参数联合概率似然构造变分下界损失函数;/n5)基于自然梯度随机变分推断,端到端地对深度贝叶斯模型进行训练;/n6)返回模型输出的图像真实标记估计及各标注者的混淆矩阵。/n

【技术特征摘要】
1.一种基于深度贝叶斯学习的图像标记估计方法,其特征在于,包括以下步骤:
1)获取图像数据,将图像分发给网络上的标注者进行预标注,获得众包标记L;
2)对图像做特征预提取处理,获得图像的fishervector特征表示X;
3)搭建深度表示学习网络,构建标注生成过程的深度贝叶斯模型;
4)将图像fishervector特征X及众包标记L输入深度贝叶斯模型,基于图像和参数联合概率似然构造变分下界损失函数;
5)基于自然梯度随机变分推断,端到端地对深度贝叶斯模型进行训练;
6)返回模型输出的图像真实标记估计及各标注者的混淆矩阵。


2.根据权利要求1所述的基于深度贝叶斯学习的图像标记估计方法,其特征在于,所述深度贝叶斯模型为一个完全贝叶斯深度生成式众包模型,包括标注生成过程模型和隐真实标记的先验模型,所述标注生成过程模型对每个标注者采用独立混淆矩阵参数化来刻画标注者的能力,基于标注者混淆矩阵V和图像真实标记Y构造众包标记L的似然p(L∣Y,V);所述隐真实标记的先验模型包括第一先验分布和第二先验分布,所述第一先验分布为数据无关的先验分布,是所有图像共享同样的、由参数π刻画的先验分布p(Y∣π),所述第二先验分布为依赖于输入特征X和参数为γ的神经网络分类器的先验分布p(Y∣X,γ);
得到基于众包标记L、真实标记Y及全局参数Θ={V,π}的联合分布为:
p(L,Y,Θ∣X,γ)=p(π)p(Y∣π)p(Y∣X,γ)p(L∣Y,V)p(V)
p(π)、p(V)分别表示参数π和混淆矩阵V的先验分布。


3.根据权利要求2所述的基于深度贝叶斯学习的图像标记估计方法,其特征在于,所述标注生成过程模型表示为:



其中Lij表示标注者j在图像i上的众包标记,Vj表示标注者j的混淆矩阵,yi表示图像i的真实标记,N、W分别表示图像数目及标注者数目,表示指示函数。


4.根据权利要求2所述的基于深度贝叶斯学习的图像标记估计方法,其特征在于,所述数据无关的先验分布为:



p(yi,π)不依赖于样本i的信息,完全由π所决定,π维度为K,表示所有图像数据中,分别属于K个类别的数据所占比例,表示第k个维度的取值,取值在[0,1];
所述依赖于输入特征和参数为γ的神经网络分类器的先验分布为:
p(yi∣xi,γ)=Categorical(τ(xi;γ))
Cat...

【专利技术属性】
技术研发人员:李绍园侍野
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1