众包任务的数据校验方法、装置、服务器及存储介质制造方法及图纸

技术编号:18289536 阅读:29 留言:0更新日期:2018-06-24 04:15
本发明专利技术实施例公开了一种众包任务的数据校验方法、装置、服务器及存储介质,其中该方法包括:将同一众包任务分配给多个用户进行数据采集作业;获取所述多个用户的答案;根据所述多个用户的答案中相同答案的比例进行答案校验,确定所述众包任务的最终答案。本发明专利技术实施例将同一众包任务分配给多个用户,获得多份答案,利用多份答案进行自校验来检验答案是否正确,得到众包任务的最终答案,提高了数据校验的准确度和效率,降低了人工审核的成本,解决了现有数据校验过程效率低且准确度不高的问题。

【技术实现步骤摘要】
众包任务的数据校验方法、装置、服务器及存储介质
本专利技术实施例涉及数据校验技术,尤其涉及一种众包任务的数据校验方法、装置、服务器及存储介质。
技术介绍
随着互联网的不断发展,利用外业众包模式对数据进行采集也越来越受到重视,数据采集过程涉及到内容提取和数据审核(也称为数据校验,目的是确认数据是否正确)。由于数据量比较庞大,采用人工方式进行数据审核,周期比较长,需要投入的人力比较大,成本比较高,且人员流动性大,易造成大量的数据积压。利用机器进行内容提取和数据审核,其提取和审核的规模有限,例如,对于图片中某地点是否可通车等兴趣点(PointofInterest,POI)属性,机器无法从图片中提取这样的信息,也无法进行审核数据是否正确。
技术实现思路
本专利技术实施例提供一种众包任务的数据校验方法、装置、服务器及存储介质,以提高数据校验的效率和准确度,降低人工审核成本。第一方面,本专利技术实施例提供了一种众包任务的数据校验方法,包括:将同一众包任务分配给多个用户进行数据采集作业;获取所述多个用户的答案;根据所述多个用户的答案中相同答案的比例进行答案校验,确定所述众包任务的最终答案。第二方面,本专利技术实施例还提供了一种众包任务的数据校验装置,包括:任务分配模块,用于将同一众包任务分配给多个用户进行数据采集作业;答案获取模块,用于获取所述多个用户的答案;答案校验模块,用于根据所述多个用户的答案中相同答案的比例进行答案校验,确定所述众包任务的最终答案。第三方面,本专利技术实施例还提供了一种服务器,所述服务器包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所述的众包任务的数据校验方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所述的众包任务的数据校验方法。本专利技术实施例的技术方案,将同一众包任务分配给多个用户,获得多份答案,利用多份答案进行自校验来检验答案是否正确,得到众包任务的最终答案,提高了数据校验的准确度和效率,降低了人工审核的成本,解决了现有数据校验过程效率低且准确度不高的问题。并且,利用预设暗桩题目对用户的答案进行有效性检验,剔除不可信用户的答案,提高了数据质量,进一步提高了众包任务最终答案的准确度。附图说明图1是本专利技术实施例一提供的众包任务的数据校验方法的流程图;图2是本专利技术实施例二提供的众包任务的数据校验方法的流程图;图3是本专利技术实施例二提供的众包任务的数据校验方法的具体流程图;图4是本专利技术实施例三提供的众包任务的数据校验装置的结构示意图;图5是本专利技术实施例四提供的服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的众包任务的数据校验方法的流程图,本实施例可适用于对众包任务采集的数据进行校验的情况,该方法可以由众包任务的数据校验装置来执行,该装置可以由软件和/或硬件来实现,一般可集成在服务器中。如图1所示,该方法具体包括:S110,将同一众包任务分配给多个用户进行数据采集作业。其中,同一众包任务分配的用户个数可以根据需求设置。众包任务中一般包括多个题目。用户进行数据采集作业,即对众包任务中各个题目进行作业,给出答案,答案即众包任务采集的数据。分配众包任务时,可以根据用户ID、用户IP地址、用户历史记录等信息进行主动分配,将众包任务推送给符合条件的用户;也可以是在众包平台上投放众包任务,供用户领取任务。示例性的,众包任务的题目可以是是从图片中提取电话、地址、时间等属性信息。S120,获取所述多个用户的答案。其中,获取多个用户的答案,即接收用户上传的答案,每个用户均会上传一份答案。S130,根据所述多个用户的答案中相同答案的比例进行答案校验,确定所述众包任务的最终答案。其中,对于同一众包任务,得到多个用户给出的多份答案,利用多份答案进行自校验(也可称为交叉校验),可以确定众包任务的最终答案。自校验过程无需人工参与,降低了人工成本。示例性的,需要五份答案来进行交叉校验,则可以将众包任务分配给五个用户。本实施例的技术方案,将同一众包任务分配给多个用户,获得多份答案,利用多份答案进行自校验来检验答案是否正确,得到众包任务的最终答案,提高了数据校验的准确度和效率,降低了人工审核的成本,解决了现有数据校验过程效率低且准确度不高的问题。在上述技术方案的基础上,S130可以包括:针对所述众包任务中的每个题目,根据所述多个用户的答案确定所述题目的相同答案比例;如果所述题目的相同答案比例超过预设阈值,确定所述相同答案作为所述题目的最终答案;如果所述题目的相同答案比例未超过所述预设阈值,提交所述多个用户对所述题目的答案进行人工校验。其中,众包任务一般包括多个题目,对于每个题目,都要进行多份答案的交叉校验,以确定众包任务中各个题目的最终答案。交叉校验是指对比多份答案,将多份答案中符合比例要求的相同答案,作为最终答案。预设阈值可以根据实际需求进行设置,例如设置为50%,即题目的相同答案比例超过50%,则认为该相同答案为该题目的最终答案。如果题目的相同答案比例未超过预设阈值,则对该题目的多个答案进行人工校验,人工校验是指通过交叉校验无法得到答案时,由人工对同一题目的多份答案进行比对,以确定该题目的最终答案,可以理解为一种辅助校验措施。需要说明的是,本专利技术实施例中通过交叉校验能够实现大部分数据的自动审核,因此,需要人工辅助校验的概率也是比较小的。在交叉校验基础上,设置人工辅助校验,能够进一步保证数据校验的全面性和准确性。可选的,上述众包任务中的题目类型包括:选择题、判断题、问答题和填空题中至少之一。为了减少众包任务的作业难度以及数据校验的难度,可以选择题、判断题为众包任务的主要题目类型,保证用户的任务答案有非常简单的处理规范和标准。对于问答题和填空题等题目类型,在比对不同用户的答案时,需要提取答案中的关键字,通过判断关键字的相似度,来确定不同用户的答案是否相同。具体相似度可以根据不同的场景进行设置,例如,填写对图片的描述信息,不同用户的描述用语有所区别,可以设置相似度大于90%,则认为答案相同;又如,从图片中提取地址或电话,由于涉及到具体的门牌号码或电话数字,则需要相似度100%的情况下,认为答案相同。实施例二图2是本专利技术实施例二提供的众包任务的数据校验方法的流程图,本实施例在上述各实施例的基础上,在S130中增加了桩点校验的操作,以去掉不可信用户的答案,提高数据质量,根据可信用户的答案进行校验。桩点校验是指根据众包任务中的预设暗桩题目判断用户是否可信(即该用户的答案是否有效)。如图2所示,该方法具体包括:S210,将同一众包任务分配给多个用户进行数据采集作业。S220,获取所述多个用户的答案。S230,根据所述众包任务中的预设暗桩题目,确定所述多个用户中的可信用户。其中,预设暗桩题目用于验证用户是否可信,也就是用户给出的答案是否有效,是否为伪造数据。预本文档来自技高网...
众包任务的数据校验方法、装置、服务器及存储介质

【技术保护点】
1.一种众包任务的数据校验方法,其特征在于,包括:将同一众包任务分配给多个用户进行数据采集作业;获取所述多个用户的答案;根据所述多个用户的答案中相同答案的比例进行答案校验,确定所述众包任务的最终答案。

【技术特征摘要】
1.一种众包任务的数据校验方法,其特征在于,包括:将同一众包任务分配给多个用户进行数据采集作业;获取所述多个用户的答案;根据所述多个用户的答案中相同答案的比例进行答案校验,确定所述众包任务的最终答案。2.根据权利要求1所述的方法,其特征在于,根据所述多个用户的答案中相同答案的比例进行答案校验,确定所述众包任务的最终答案,包括:针对所述众包任务中的每个题目,根据所述多个用户的答案确定所述题目的相同答案比例;如果所述题目的相同答案比例超过预设阈值,确定所述相同答案作为所述题目的最终答案;如果所述题目的相同答案比例未超过所述预设阈值,提交所述多个用户对所述题目的答案进行人工校验。3.根据权利要求1所述的方法,其特征在于,根据所述多个用户的答案中相同答案的比例进行答案校验,确定所述众包任务的最终答案,包括:根据所述众包任务中的预设暗桩题目,确定所述多个用户中的可信用户;如果所述可信用户的个数未达到预设个数,对所述众包任务进行分配;如果所述可信用户的个数达到所述预设个数,根据所述可信用户的答案中相同答案的比例进行答案校验,确定所述众包任务的最终答案。4.根据权利要求3所述的方法,其特征在于,根据所述众包任务中的预设暗桩题目,确定所述多个用户中的可信用户,包括:针对所述多个用户中的每个用户,从所述用户的答案中提取所述预设暗桩题目的答案;如果提取的答案与所述预设暗桩题目的标准答案全部相同,确定所述用户为可信用户。5.根据权利要求1所述的方法,其特征在于,在将同一众包任务分配给多个用户进行数据采集作业之前,所述方法还包括:在所述众包任务中设置预设暗桩题目,其中,所述预设暗桩题目包括预设数目的具备标准答案的题目。6.根据权利要求5所述的方法,其特征在于,在所述众包任务中设置预设暗桩题目之后,所述方法还包括:定期更新所述预设暗桩题目。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述众包任务中的题目类型包括:选择题、判断题、问答题和填空题中至少之一。8.一种众包任务的数据校验装置,其特征在于,包括:任务分配模块,用于将同一众包任务分配给多个用户进行数据采集作业;答案获取模块,用于获取所述多个用户的答案;答案校验模块,用于根据所述多个...

【专利技术属性】
技术研发人员:黄翠萍柯海帆李亚丹
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1