一种基于量化众包的真值预测方法技术

技术编号:38585100 阅读:17 留言:0更新日期:2023-08-26 23:28
本发明专利技术公开了一种基于量化众包的真值预测方法,该方法首先分析工人标注的结果是否为数值数据,如不是则利用语言表征模型将标注数据进行量化。再通过工人的社交影响力刻画工人的社交网络特征,利用工人的能力、工人的苛刻度和工人的偏好刻画工人特征。最终将构建出数据集传入模型中并得到汇聚结果。本发明专利技术充分考虑了工人社交网络对于结果汇聚的影响,同时又将工人特征考虑在模型内,能获得更加准确的汇聚结果。聚结果。聚结果。

【技术实现步骤摘要】
一种基于量化众包的真值预测方法


[0001]本专利技术属于众包
,具体涉及一种基于量化众包的真值预测方法。

技术介绍

[0002]众包是一种分散的劳动力模式,其通过众包平台寻找受雇者来解决一些机器难以完成的特定任务。众包过程通常包括两个步骤:任务处理和结果汇聚。在任务处理方面,任务发布者根据一些奖励策略和平台策略,从网络向不同的匿名工作者冗余发布任务。工人完成这些任务,并将他们的响应提交回平台。在结果聚合阶段,需要使用真值预测方法来提取高质量的答案,以满足请求者的需求。
[0003]众包工人在进行众包决策的过程中,会受到各种方面的影响。其中影响较深的分为社交影响和自身影响。工人所处的社交网络中的关注者的决策和偏好会对工人的众包决策过程有影响。并且工人自身的因素,比如工人的能力、工人的苛刻度和工人对任务的偏好都会影响工人在众包过程中的决策行为。所以本专利技术基于这些因素,提出了一种真值发现方法。
[0004]EM(Expectation Maximization Algorithm)算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法。它用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。
[0005]EM算法解决问题的思路是使用启发式的迭代方法,既然无法直接求出模型分布参数,那么可以先猜想隐含数据(EM算法的E步),接着基于观察数据和猜测的隐含数据一起来极大化对数似然,求解的模型参数(EM算法的M步)。由于此时的参数并非真实的最终结果,所以要基于当前得到的模型参数,继续猜测隐含数据,然后继续极大化对数似然,求解模型参数。往复循环不断地迭代下去,直到模型分布参数基本无变化,算法趋于收敛,找到合适的模型参数。

技术实现思路

[0006]针对众包中不同工人的社交群体、苛刻度、专业能力和偏好的多样性,导致不同工人之间标签质量的差异较大,从而影响最终标签聚合结果的准确性。本专利技术提供了一种基于量化众包的真值预测方法,旨在更准确地得到最终聚合的真值结果。
[0007]本专利技术包含以下步骤:
[0008](1)任务发布者在众包平台上发布了任务,平台将任务分配给工人进行标注;
[0009](2)将步骤(1)得到的工人标注数据进行量化,得到数值数据;
[0010](3)通过众包平台和步骤(2)得到以下数据:工人编号、任务编号、工人的标注结果、工人间的社交关系、众包任务的类别;
[0011](4)基于步骤(3)中工人间的社交关系,计算每个工人的社交影响力;
[0012](5)将工人间的社交关系、工人的社交影响力、众包任务的类别和工人的标注结果
投入到模型中,使用迭代算法计算工人的能力、工人的苛刻度和工人的偏好;
[0013]再通过设置超参数得到完整的模型;
[0014](6)将数据集输入到模型中计算真值,将模型计算得到的真值返回给任务发布者。
[0015]本专利技术的有益效果:本专利技术充分考虑了工人社交网络对于结果汇聚的影响,同时又将工人特征考虑在模型内,从而能获得更加准确的汇聚结果。
附图说明
[0016]图1为本专利技术方法的逻辑图;
[0017]图2为本专利技术的概率模型图。
具体实施方式
[0018]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术的具体实施方式做详细的说明。
[0019]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施例的限制
[0020]如图1所示,本专利技术包含以下步骤:
[0021]步骤(1)任务发布者在众包平台上发布了任务,平台将任务分配给工人进行标注。一个工人可以标注多个任务,一个任务可以由多个工人标注。
[0022]步骤(2)将步骤(1)得到的工人标注数据进行量化,得到数值数据。
[0023]如果得到的标注数据是文本数据,则使用基于BERT的情感分析模型对其进行量化。如果得到的标注数据是数值数据,则直接进行步骤(3)。
[0024]步骤(3)通过众包平台和步骤(2)得到数据,包含工人编号、任务编号、工人的标注结果、工人间的社交关系、众包任务的类别等信息。
[0025]步骤(4)基于步骤(3)中工人间的社交关系,计算每个工人的社交影响力。
[0026]步骤(5)将步骤(3)和步骤(4)中得到的工人间的社交关系、工人的社交影响力、任务的类别和工人的标注结果投入到模型中,使用迭代算法(EM算法)计算出工人的能力、工人的苛刻度、工人的偏好,再通过设置超参数得到完整的模型。
[0027]步骤(6)将数据集输入到模型中计算,将模型计算得到的真值返回给任务发布者。
[0028]进一步说,步骤(2)中当标注数据为文本数据时,将标注数据输入到一个预训练的语言表征模型BERT(全称为Bidirectional Encoder Representation from Transformers),将其量化为0到1中的一个小数使其转化为数值数据,该数值描述了工人对该任务中内容的肯定程度。
[0029]进一步说,步骤(4)中统计工人间的关注和被关注的社交关系,并通过公式来计算工人的社交影响力。每个工人在社交群体中影响力的计算公式是:其中每个工人用字母i表示,e
i
表示工人i的影响力,d
i
表示工人i节点在社交网络图中的入度数,M表示社交网络图中所有节点的总数,即工人的总数。
[0030]进一步说,步骤(5)中包含以下步骤:
[0031](5

1)求出完全数据的对数似然函数logP(Y,Z|)关于在给定观测数据Y和当前参数θ下对未观测数据Z的条件概率分布P(Z|Y,θ)的期望Q函数,并用EM算法的M步得到的结果计算EM算法的E步。
[0032](5

2)计算EM算法的M步,即用E步得出的结果求模型参数,即每个工人的能力、工人苛刻度和工人的任务偏好。
[0033](5

3)设置超参数初始值,循环执行(5

1)和(5

2),直到参数θ达到终止条件或者算法达到最大迭代次数结束。
[0034]在某一实施例中:所述步骤(5

1)中包含以下步骤:
[0035]完全数据的对数似然函数logP(Y,Z|)关于在给定观测数据Y和当前参数θ下对未观测数据Z的条件概率分布P(Z|Y,θ)的期望Q函数为:
[0036][0037]其中,工人用字母i表示,任务用字母j表示,预测值用字母k表示。共M个工人,N个任务,每个任务有K个预测值;Q
j
(z
j
=k)表示任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于量化众包的真值预测方法,其特征在于,包含以下步骤:(1)任务发布者在众包平台上发布了任务,平台将任务分配给工人进行标注;(2)将步骤(1)得到的工人标注数据进行量化,得到数值数据;(3)通过众包平台和步骤(2)得到以下数据:工人编号、任务编号、工人的标注结果、工人间的社交关系、众包任务的类别;(4)基于步骤(3)中工人间的社交关系,计算每个工人的社交影响力;(5)将工人间的社交关系、工人的社交影响力、众包任务的类别和工人的标注结果投入到模型中,使用迭代算法计算工人的能力、工人的苛刻度和工人的偏好;再通过设置超参数得到完整的模型;(6)将数据集输入到模型中计算真值,将模型计算得到的真值返回给任务发布者。2.根据权利要求1所述的一种基于量化众包的真值发现方法,其特征在于,步骤(1)中一个工人标注多个任务或者一个任务由多个工人标注。3.根据权利要求1所述的一种基于量化众包的真值发现方法,其特征在于,步骤(2)中当得到的标注数据是文本数据时,将标注数据输入到一个预训练的语言表征模型BERT,将其量化为0到1中的一个小数使其转化为数值数据,该数值描述了工人对该任务中内容的肯定程度。4.根据权利要求1所述的一种基于量化众包的真值发现方法,其特征在于,步骤(4)中每个...

【专利技术属性】
技术研发人员:韩焘袁壮苗方毅立丁鑫怡古华茂
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1