众包质量控制方法、装置、计算机存储介质和计算设备制造方法及图纸

技术编号:24683266 阅读:32 留言:0更新日期:2020-06-27 07:56
本发明专利技术提供了一种众包质量控制方法和装置。该方法首先从众包任务中抽取一定比例的数据,并将抽取的数据复制多份,作为冗余数据,未被抽取的数据作为非冗余数据。然后,在保证同一个众包工作单元的任务中不包含重复数据的条件下将冗余数据和非冗余数据分配给众包工作单元进行标注。在标注完成后,根据冗余数据的标注结果,通过寻找多数元素的算法得出冗余数据的最终答案,并根据该最终答案对每个众包工作单元的冗余数据的标注结果进行校验,得出其在冗余数据上的正确率。最后,根据每个众包工作单元在冗余数据上的正确率判定其众包任务的整体完成情况。本发明专利技术实现了无监督的任务众包质量控制,大大降低众包任务的资金成本和人力成本。

Crowdsourcing quality control methods, devices, computer storage media and computing equipment

【技术实现步骤摘要】
众包质量控制方法、装置、计算机存储介质和计算设备
本专利技术涉及互联网
,特别是一种众包质量控制方法、众包质量控制装置、计算机存储介质以及计算设备。
技术介绍
众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法,是一种公开面向互联网大众的分布式的问题解决和生产组织机制。它具有低成本、收效快、可进行大规模任务等优点,越来越受到人们的欢迎。但是由于众包的自由松散的组织模式、众包工作单元专业知识不同,能力水平存在差异,工作目的、认真程度也不同(例如:在众包工作单元中存在一些完全以快速获取利益为目的的欺诈者,他们对待任务极度不认真),经常会导致低质量的众包结果。因此,众包的质量问题成为了人们当前在众包技术上关注的主要问题。为了解决众包质量低的问题,众包质量控制策略的研究逐渐开展起来。目前用于控制众包质量的技术主要有以下四种:第一种,重复众包任务,产生冗余数据。也就是说,将每个任务同时分发给多个众包工作单元,然后再利用一些统计方法(比如大多数投票的方法)从多个结果中得本文档来自技高网...

【技术保护点】
1.一种众包质量控制方法,包括:/n按第一指定比例从所有众包任务中随机抽取数据,并将所抽取的数据复制n份,其中,将所抽取的数据和其复制数据作为冗余数据,未被抽取的数据作为非冗余数据,n为大于或等于2并且小于众包工作单元数量的整数;/n将由所述非冗余数据和所述冗余数据组成的总任务分配给众包工作单元进行标注,其中,同一个众包工作单元所分配的任务中不包含重复的冗余数据;/n在所有分配的任务被标注完成后,根据在所有分配的任务中的冗余数据的标注结果,通过寻找多数元素的算法得出所述冗余数据的最终答案;/n根据所述冗余数据的最终答案对每个众包工作单元的任务中的冗余数据的标注结果进行校验,得出每个众包工作单元...

【技术特征摘要】
1.一种众包质量控制方法,包括:
按第一指定比例从所有众包任务中随机抽取数据,并将所抽取的数据复制n份,其中,将所抽取的数据和其复制数据作为冗余数据,未被抽取的数据作为非冗余数据,n为大于或等于2并且小于众包工作单元数量的整数;
将由所述非冗余数据和所述冗余数据组成的总任务分配给众包工作单元进行标注,其中,同一个众包工作单元所分配的任务中不包含重复的冗余数据;
在所有分配的任务被标注完成后,根据在所有分配的任务中的冗余数据的标注结果,通过寻找多数元素的算法得出所述冗余数据的最终答案;
根据所述冗余数据的最终答案对每个众包工作单元的任务中的冗余数据的标注结果进行校验,得出每个众包工作单元在冗余数据上的正确率,并将每个众包工作单元在冗余数据上的正确率作为每个众包工作单元的标注结果的正确率;
根据每个众包工作单元的标注结果的正确率对其完成的众包任务标注结果进行处理。


2.根据权利要求1所述的方法,其中,将由所述非冗余数据和所述冗余数据组成的总任务分配给众包工作单元,包括:
在分配给每个众包工作单元的任务中,按第二指定比例放入所述冗余数据和所述非冗余数据,其中,所述第二指定比例由众包任务的总数量、所述第一指定比例和复制份数n决定。


3.根据权利要求1或2所述的方法,其中,将由所述非冗余数据和所述冗余数据组成的总任务分配给众包工作单元,包括:
将所述冗余数据和所述非冗余数据放入数据池中;
在进行标注时,使每个众包工作单元每次从所述数据池中领取一条数据进行标注,直到所述数据池中所有数据都被标注完成,其中,同一个众包工作单元不会领取到重复的数据。


4.根据权利要求1-3中任一项所述的方法,其中,在每个众包工作单元从所述数据池中领取数据进行标注时,使每个众包工作单元能够一直从所述数据池中领取数据进行标注,直到所述数据池中不再有该众包工作单元未标注过的数据。


5.根据权利要求1-4中任一项所述的方法,其中,还包括:
对于未领取到冗余数据的众包工作单元,对其...

【专利技术属性】
技术研发人员:耿仕强
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1