一种基于量化众包的真值预测方法技术

技术编号：38585100 阅读：17 留言：0更新日期：2023-08-26 23:28

本发明专利技术公开了一种基于量化众包的真值预测方法，该方法首先分析工人标注的结果是否为数值数据，如不是则利用语言表征模型将标注数据进行量化。再通过工人的社交影响力刻画工人的社交网络特征，利用工人的能力、工人的苛刻度和工人的偏好刻画工人特征。最终将构建出数据集传入模型中并得到汇聚结果。本发明专利技术充分考虑了工人社交网络对于结果汇聚的影响，同时又将工人特征考虑在模型内，能获得更加准确的汇聚结果。聚结果。聚结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于量化众包的真值预测方法

[0001]本专利技术属于众包
，具体涉及一种基于量化众包的真值预测方法。

技术介绍

[0002]众包是一种分散的劳动力模式，其通过众包平台寻找受雇者来解决一些机器难以完成的特定任务。众包过程通常包括两个步骤：任务处理和结果汇聚。在任务处理方面，任务发布者根据一些奖励策略和平台策略，从网络向不同的匿名工作者冗余发布任务。工人完成这些任务，并将他们的响应提交回平台。在结果聚合阶段，需要使用真值预测方法来提取高质量的答案，以满足请求者的需求。
[0003]众包工人在进行众包决策的过程中，会受到各种方面的影响。其中影响较深的分为社交影响和自身影响。工人所处的社交网络中的关注者的决策和偏好会对工人的众包决策过程有影响。并且工人自身的因素，比如工人的能力、工人的苛刻度和工人对任务的偏好都会影响工人在众包过程中的决策行为。所以本专利技术基于这些因素，提出了一种真值发现方法。
[0004]EM(Expectation Maximization Algorithm)算法是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步(E步)，另一个为极大步(M步)，所以算法被称为EM算法。它用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。
[0005]EM算法解决问题的思路是使用启发式的迭代方法，既然无法直接求出模型分布参数，那么可以先猜想隐含数据(EM算法的E步)，接着基于观察数据和猜测的隐含数据一起来极大化对数似然，求解的模型参数(EM算法的...

【技术保护点】

【技术特征摘要】
1.一种基于量化众包的真值预测方法，其特征在于，包含以下步骤：(1)任务发布者在众包平台上发布了任务，平台将任务分配给工人进行标注；(2)将步骤(1)得到的工人标注数据进行量化，得到数值数据；(3)通过众包平台和步骤(2)得到以下数据：工人编号、任务编号、工人的标注结果、工人间的社交关系、众包任务的类别；(4)基于步骤(3)中工人间的社交关系，计算每个工人的社交影响力；(5)将工人间的社交关系、工人的社交影响力、众包任务的类别和工人的标注结果投入到模型中，使用迭代算法计算工人的能力、工人的苛刻度和工人的偏好；再通过设置超参数得到完整的模型；(6)将数据集输入到模型中计算真值，将模型计算得到的真值返回给任务发布者。2.根据权利要求1所述的一种基于量化众包的真值发现方法，其特征在于，步骤(1)中一个工人标注多个任务或者一个任务由多个工人标注。3.根据权利要求1所述的一种基于量化众包的真值发现方法，其特征在于，步骤(2)中当得到的标注数据是文本数据时，将标注数据输入到一个预训练的语言表征模型BERT，将其量化为0到1中的一个小数使其转化为数值数据，该数值描述了工人对该任务中内容的肯定程度。4.根据权利要求1所述的一种基于量化众包的真值发现方法，其特征在于，步骤(4)中每个...

【专利技术属性】
技术研发人员：韩焘，袁壮苗，方毅立，丁鑫怡，古华茂，
申请(专利权)人：浙江工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人