当前位置: 首页 > 专利查询>清华大学专利>正文

众包标注整合方法技术

技术编号:18210302 阅读:284 留言:0更新日期:2018-06-16 07:40
本发明专利技术提供了一种众包标注整合方法,本发明专利技术利用正则化超参数、间隔距离超参数、标注者投票权重以及标注者将当前预测项目标注为对应的估计值的次数与标注者将当前预测项目标注为次类别的次数的差值定义一个广义反高斯分布,并采样得到了辅助参量,并利用辅助参量更新了标注者权重,从而可以显著增强模型的判别能力。然后整合了传统的标注整合多数投票模型和混淆矩阵模型,进而实现了更全面描述数据生成过程的目的。另外通过使用采样得到了精确的预测项目更新值,同时运行的效率也得到了提高。 1

Integration method of public packet annotation

The invention provides an integration method for crowdsourcing. The invention uses the regularized super parameter, the interval distance super parameter, the annotated voting weight, and the number of the annotators to mark the current forecast project as the corresponding estimated value, and defines a generalized inverse height of the number of the times of the annotators tagging the current forecast project to the secondary category. The auxiliary parameters are sampled and sampled, and the weights of the annotated persons are updated by using auxiliary parameters, so that the discriminant ability of the model can be significantly enhanced. Then we integrate the traditional annotation majority voting model and the confusion matrix model to achieve a more comprehensive description of the data generation process. In addition, the accurate prediction of project update values is achieved by using sampling, and the efficiency of operation is also improved. One

【技术实现步骤摘要】
众包标注整合方法
本专利技术属于数据挖掘与机器学习
,更具体涉及一种众包标注整合方法。
技术介绍
随着互联网数据的爆炸性增长以及统计机器学习算法的广泛应用,大规模有标注数据集在机器学习中的作用开始突显,与此同时使用众包模式获取数据标注的方法也越来越重要。众包是指将工作量分为大量简单子任务,然后通过网络平台分配给大量普通网民完成。这种模式目前被广泛应用在为ImageNet等大规模数据集搜集标注的场景中。与传统的标注方式比,通过众包方式获取数据标注由于是通过大量普通网民同时完成,具有搜集总时间周期短、单标注便宜等优点。但是由于普通网络标注者可能缺乏专业领域知识,他们提供的标注一般存在可靠性差,噪音高等缺点。此种背景下,如何通过众包方法获取可靠数据标注成为了一个重要研究问题。其中的主要难点包括:1.标注者的复杂组成,2.标注的稀疏性,3.标注本身的复杂性等等。整合众包标注问题实际上可以分为两部分,第一部分是对标注行为的假设,第二部分是根据假设给出整合结果。关于这一问题已经有的研究主要包括多数投票模型和混淆矩阵模型两类以及其变种:多数投票模型是指当已经获得了每张图片的多个标注以后,简单地计算它所获得的哪种标注更多,从而决定给出的预测值。这一模型的实质是把每一张图片的标注当作独立的问题,并且在每一个问题中,假设每个标注者都具有相同的出错概率。在基础的多数投票法上,还有许多改进算法。例如加权多数投票法,通过引入每个标注者的可靠程度多次迭代得出预测结果;以及随机多数投票法,在预测过程中引入了随机性等等,这些方法本质上都是基于相同的假设建立的。多数投票法在数据稠密的应用场景中有比较好的结果,然而当“众包”问题变得复杂之后,这一算法就显得适用性不强。多数投票法假设所有标注者都是同样优秀的,然而当专家较少,其他人都随机给出结果,这时正确的标注很容易就会被噪音所掩盖。通过加权多数投票模型虽然也为每位标注者引入了权值,但是这一权值的定义却过于生硬,导致多个标注中蕴含的信息得不到运用,最终也无法给出较为理想的结果。混淆矩阵模型。Dawid和Skene在1979年提出了一个多值混淆矩阵估计模型,他们假定每一个标注者出现特定种类错误的概率是确定的,这样就可以用一个统一的混淆矩阵来描述所有情况出现的概率,最终通过最大似然估计就可以得到所有参数值,包括每张图片的真实标注。这一算法相对于多数投票模型增加了许多细节,它对标注者出错的来源有了一个初步的假设,并且通过概率的方法给出了一个较为严谨的问题表述,最终还提出了通过期望最大化算法求解问题的方法,然而这种处理方法同样存在着许多牵强的假设:第一,在该模型下标注者把一个类别的图片标注为另一类别的概率为确定值,然而随着图片的变化,每张图片可能倾向于不同的类型,因此它们被分到同一类别的概率可能有很大不同。第二,这一模型没有考虑标注者本身的倾向性。在同一类型的标注问题中,每一个数据可能都有不同的要素来组成,因此标注者在给出标注时,对其产生影响的内容可能来自于多个方面,因此模型中仅仅把它用混淆矩阵来描述,事实上忽视了许多分类信息。上述领域的最新成果为后续模型的建立提供了很好的范本,然而其本身还是一个比较初步的算法,有很大进一步完善的空间。
技术实现思路
本专利技术的目的是是提供一种众包标注整合方法,以取可靠的数据标注。为了解决上述技术问题,本专利技术提供了一种众包标注整合方法,所述方法包括以下步骤:S1、设置混淆矩阵超参数、间隔距离超参数以及正则化超参数;S2、初始化标注者投票权重,并利用多数投票法对所有预测项目的待估计标注设置初始值;S3、根据所述步骤S2得到的所有预测项目的初始值,统计每一位标注者将各个预测项目标注为各个预定类别的次数,所述预定类别为当前标注任务中所有标注者标注过的所有的类别;S4、根据所述混淆矩阵超参数以及所述每一位标注者将各个预测项目标注为各个预定类别的次数,利用狄利克雷分布采样的方法更新对应的混淆矩阵,其中每一位标注者对应一个混淆矩阵,混淆矩阵的第K列的各项分别表示当前标注者将属于第K类的预测项目标注为各个预定类别的次数的统计值;所述第K类与对应的预测项目的所述估计值相对应;S5、根据所述正则化超参数、所述间隔距离超参数、所述标注者投票权重以及标注者将当前预测项目标注为对应的所述初始值的次数与标注者将当前预测项目标注为次类别的次数的差值定义一个广义反高斯分布,并通过采样得到辅助参量;其中所述次类别为当前预测项目除其对应的所述初始值外最可能属于的类别;S6、根据所述辅助参量、所述间隔距离超参数、所述正则化超参数以及所述差值更新所述标注者投票权重;S7、对于每一个所述预测项目,根据对应的所述混淆矩阵以及所述辅助参量计算其对应的各个标注类别出现的概率,并从所述概率的多项分布中通过采样得到所述预测项目的更新值。优选地,所述方法在步骤S7之后还包括以下步骤:S8、所述步骤S3-S7执行一次形成一轮迭代,若前后两轮迭代得到的各个所述预测项目对应的更新值分别相同,则整合结束,最后一轮迭代得到的各个所述预测项目对应的更新值为最终值;同时,所述迭代次数大于1时,所述步骤S3和S5中的所述初始值用所述步骤S7中得到的所述更新值替换来执行相应的操作。优选地,所述步骤S3之前还包括如下步骤:各个标注者对各个所述预测项目分别进行标注。优选地,所述各个标注者对各个所述预测项目分别进行标注之后,并且在所述步骤S3之前所述方法还包括如下步骤:对于每一个所预测项目,利用所有标注者对其的标注形成N个M维的二值向量,其中M表示所有标注者的数量,N表示所述预定类别的个数。优选地,所述初始化标注者投票权重为将标注者投票权重初始化为一个全部为1的M维向量,其中M表示所有标注者的数量。优选地,所述利用狄利克雷分布采样的方法更新对应的混淆矩阵为利用如下公式进行更新:式中,α为所述混淆矩阵超参数,nmk为当前标注者m将属于第K类的预测项目标注为各个预定类别的次数的统计值,为当前标注者m对应的混淆矩阵的第K列,所述K列的各项分别表示当前标注者m将属于第K类的预测项目标注为各个预定类别的概率。优选地,所述次类别利用如下公式确定:式中,si为所述次类别,yi为当前预测项目标注的初始值或更新值,η为初始化的所述标注者投票权重,为标注者将当前预测项目标注为对应的所述初始值或更新值的次数与标注者将当前预测项目标注为类别d的次数的差值,i为当前预测项目的编号。优选地,所述广义反高斯分布具体为:式中,λi为所述辅助参量,C为所述正则化超参数,l为所述间隔距离超参数中的第一参数,为所述标注者将当前预测项目标注为对应的所述初始值或更新值的次数与标注者将当前预测项目标注为次类别的次数的差值。优选地,所述步骤S6中标注者投票权重服从多维高斯分布,所述多维高斯分布的协方差矩阵为:式中,v为所述间隔距离超参数中的第二参数;所述协方差矩阵的均值为:则更新所述标注者投票权重的采样公式为:η~N(μ,Σ)优选地,所述计算其对应的各个标注类别出现的概率具体为利用如下公式进行计算:式中,q(yi=d)表示第i个预测项目的真实标注是d类的概率,表示将当前预测项目标注于次类别对应的间隔值,表示所述混淆矩阵,II(xij=k)为一个逻辑判断式,当且仅当xij等于本文档来自技高网
...
众包标注整合方法

【技术保护点】
1.一种众包标注整合方法,其特征在于,所述方法包括以下步骤:

【技术特征摘要】
1.一种众包标注整合方法,其特征在于,所述方法包括以下步骤:S1、设置混淆矩阵超参数、间隔距离超参数以及正则化超参数;S2、初始化标注者投票权重,并利用多数投票法对所有预测项目的待估计标注设置初始值;S3、根据所述步骤S2得到的所有预测项目的初始值,统计每一位标注者将各个预测项目标注为各个预定类别的次数,所述预定类别为当前标注任务中所有标注者标注过的所有的类别;S4、根据所述混淆矩阵超参数以及所述每一位标注者将各个预测项目标注为各个预定类别的次数,利用狄利克雷分布采样的方法更新对应的混淆矩阵,其中每一位标注者对应一个混淆矩阵,混淆矩阵的第K列的各项分别表示当前标注者将属于第K类的预测项目标注为各个预定类别的次数的统计值;所述第K类与对应的预测项目的所述估计值相对应;S5、根据所述正则化超参数、所述间隔距离超参数、所述标注者投票权重以及标注者将当前预测项目标注为对应的所述初始值的次数与标注者将当前预测项目标注为次类别的次数的差值定义一个广义反高斯分布,并通过采样得到辅助参量;其中所述次类别为当前预测项目除其对应的所述初始值外最可能属于的类别;S6、根据所述辅助参量、所述间隔距离超参数、所述正则化超参数以及所述差值更新所述标注者投票权重;S7、对于每一个所述预测项目,根据对应的所述混淆矩阵以及所述辅助参量计算其对应的各个标注类别出现的概率,并从所述概率的多项分布中通过采样得到所述预测项目的更新值。2.根据权利要求1所述的方法,其特征在于,所述方法在步骤S7之后还包括以下步骤:S8、所述步骤S3-S7执行一次形成一轮迭代,若前后两轮迭代得到的各个所述预测项目对应的更新值分别相同,则整合结束,最后一轮迭代得到的各个所述预测项目对应的更新值为最终值;同时,所述迭代次数大于1时,所述步骤S3和S5中的所述初始值用所述步骤S7中得到的所述更新值替换来执行相应的操作。3.根据权利要求1所述的方法,其特征在于,所述步骤S3之前还包括如下步骤:各个标注者对各个所述预测项目分别进行标注。4.根据权利要求3所述的方法,其特征在于,所述各个标注者对各个所述预测项目分别进行标注之后,并且在所述步骤S3之前...

【专利技术属性】
技术研发人员:朱军田天
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1