The invention provides an integration method for crowdsourcing. The invention uses the regularized super parameter, the interval distance super parameter, the annotated voting weight, and the number of the annotators to mark the current forecast project as the corresponding estimated value, and defines a generalized inverse height of the number of the times of the annotators tagging the current forecast project to the secondary category. The auxiliary parameters are sampled and sampled, and the weights of the annotated persons are updated by using auxiliary parameters, so that the discriminant ability of the model can be significantly enhanced. Then we integrate the traditional annotation majority voting model and the confusion matrix model to achieve a more comprehensive description of the data generation process. In addition, the accurate prediction of project update values is achieved by using sampling, and the efficiency of operation is also improved. One
【技术实现步骤摘要】
众包标注整合方法
本专利技术属于数据挖掘与机器学习
,更具体涉及一种众包标注整合方法。
技术介绍
随着互联网数据的爆炸性增长以及统计机器学习算法的广泛应用,大规模有标注数据集在机器学习中的作用开始突显,与此同时使用众包模式获取数据标注的方法也越来越重要。众包是指将工作量分为大量简单子任务,然后通过网络平台分配给大量普通网民完成。这种模式目前被广泛应用在为ImageNet等大规模数据集搜集标注的场景中。与传统的标注方式比,通过众包方式获取数据标注由于是通过大量普通网民同时完成,具有搜集总时间周期短、单标注便宜等优点。但是由于普通网络标注者可能缺乏专业领域知识,他们提供的标注一般存在可靠性差,噪音高等缺点。此种背景下,如何通过众包方法获取可靠数据标注成为了一个重要研究问题。其中的主要难点包括:1.标注者的复杂组成,2.标注的稀疏性,3.标注本身的复杂性等等。整合众包标注问题实际上可以分为两部分,第一部分是对标注行为的假设,第二部分是根据假设给出整合结果。关于这一问题已经有的研究主要包括多数投票模型和混淆矩阵模型两类以及其变种:多数投票模型是指当已经获得了每张图片的多个标注以后,简单地计算它所获得的哪种标注更多,从而决定给出的预测值。这一模型的实质是把每一张图片的标注当作独立的问题,并且在每一个问题中,假设每个标注者都具有相同的出错概率。在基础的多数投票法上,还有许多改进算法。例如加权多数投票法,通过引入每个标注者的可靠程度多次迭代得出预测结果;以及随机多数投票法,在预测过程中引入了随机性等等,这些方法本质上都是基于相同的假设建立的。多数投票法在数据稠密的 ...
【技术保护点】
1.一种众包标注整合方法,其特征在于,所述方法包括以下步骤:
【技术特征摘要】
1.一种众包标注整合方法,其特征在于,所述方法包括以下步骤:S1、设置混淆矩阵超参数、间隔距离超参数以及正则化超参数;S2、初始化标注者投票权重,并利用多数投票法对所有预测项目的待估计标注设置初始值;S3、根据所述步骤S2得到的所有预测项目的初始值,统计每一位标注者将各个预测项目标注为各个预定类别的次数,所述预定类别为当前标注任务中所有标注者标注过的所有的类别;S4、根据所述混淆矩阵超参数以及所述每一位标注者将各个预测项目标注为各个预定类别的次数,利用狄利克雷分布采样的方法更新对应的混淆矩阵,其中每一位标注者对应一个混淆矩阵,混淆矩阵的第K列的各项分别表示当前标注者将属于第K类的预测项目标注为各个预定类别的次数的统计值;所述第K类与对应的预测项目的所述估计值相对应;S5、根据所述正则化超参数、所述间隔距离超参数、所述标注者投票权重以及标注者将当前预测项目标注为对应的所述初始值的次数与标注者将当前预测项目标注为次类别的次数的差值定义一个广义反高斯分布,并通过采样得到辅助参量;其中所述次类别为当前预测项目除其对应的所述初始值外最可能属于的类别;S6、根据所述辅助参量、所述间隔距离超参数、所述正则化超参数以及所述差值更新所述标注者投票权重;S7、对于每一个所述预测项目,根据对应的所述混淆矩阵以及所述辅助参量计算其对应的各个标注类别出现的概率,并从所述概率的多项分布中通过采样得到所述预测项目的更新值。2.根据权利要求1所述的方法,其特征在于,所述方法在步骤S7之后还包括以下步骤:S8、所述步骤S3-S7执行一次形成一轮迭代,若前后两轮迭代得到的各个所述预测项目对应的更新值分别相同,则整合结束,最后一轮迭代得到的各个所述预测项目对应的更新值为最终值;同时,所述迭代次数大于1时,所述步骤S3和S5中的所述初始值用所述步骤S7中得到的所述更新值替换来执行相应的操作。3.根据权利要求1所述的方法,其特征在于,所述步骤S3之前还包括如下步骤:各个标注者对各个所述预测项目分别进行标注。4.根据权利要求3所述的方法,其特征在于,所述各个标注者对各个所述预测项目分别进行标注之后,并且在所述步骤S3之前...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。