【技术实现步骤摘要】
一种标注结果确定的方法及装置
[0001]本专利技术涉及数据处理
,尤其涉及一种标注结果确定的方法及装置。
技术介绍
[0002]随着网络技术的发展,众包服务也蓬勃发展起来,在很多领域得到了广泛应用,例如机器翻译、图片识别、语音识别、数据挖掘等。众包服务的核心在于群体智慧,通过让大众群体参与,一起完成实现一些小任务,最终实现一个比较大的目标。
[0003]在理想的工作状态下,众包的确可以解决很多问题,对完成大的任务有很多好处。但是,在实际工作当中,用户提交的问题解答,可能并不一定准确,甚至可能出现恶意提交垃圾答案的情况,使得众包工作的完成质量受到很大的影响。例如,在语音识别场景中,在构建语音识别模型时,需要对语音进行自然语言处理和机器学习。而语音识别的基础在于语音识别的准确率,通过众包的方式让大众参与语音标注,可以提高语音识别的准确率。而众包的质量评估算法对众包任务的质量又尤其重要。
技术实现思路
[0004]本申请提供一种标注结果确定的方法及装置,以解决相关技术中对众包工作的完成质量评估不够准 ...
【技术保护点】
【技术特征摘要】
1.一种标注结果确定的方法,其特征在于,所述方法包括:获取针对待标注数据的多种候选标注结果,其中,每种候选标注结果携带一个或多个标注员标识;针对每种候选标注结果,确定该候选标注结果携带的各标注员标识对应的标注员评估值,并根据所述标注员评估值,确定该候选标注结果的置信度;根据各候选标注结果的置信度,从所述多种候选标注结果中选取所述待标注数据的最终标注结果。2.根据权利要求1所述的方法,其特征在于,所述获取针对待标注数据的多种候选标注结果包括:获取多个标注员针对目标标注数据进行人工标注后的标注结果,其中,所述目标标注数据包括所述待标注数据,所述标注结果包括针对所述待标注数据的候选标注结果;比较各标注员的候选标注结果,将相同的候选标注结果作为同一种候选标注结果,并标记同一种候选标注结果所对应的标注员标识。3.根据权利要求2所述的方法,其特征在于,所述目标标注数据还包括测试标注数据,所述标注结果还包括针对所述测试标注数据的测试标注结果;所述针对每种候选标注结果,确定该候选标注结果携带的各标注员标识对应的标注员评估值,包括:将所述标注员标识对应的测试标注结果与预先为所述测试标注数据设定的标准测试标注结果进行比较,以确定该标注员标识的本次标注评估值;获取该标注员标识的历史标注评估值;根据所述本次标注评估值以及所述历史标注评估值,确定该标注员标识的标注员评估值。4.根据权利要求3所述的方法,其特征在于,所述将所述标注员标识对应的测试标注结果与预先为所述测试标注数据设定的标准测试标注结果进行比较,以确定该标注员标识的本次标注评估值,包括:将所述标注员标识对应的测试标注结果与预先为所述测试标注数据设定的标准测试标注结果进行比较,以确定改动数量;确定所述标准测试标注结果的总数量;根据所述改动数量以及所述总数量,计算该标注员标识在本次正确率作为本次标注评估值。5.根据权利要求3或4所述...
【专利技术属性】
技术研发人员:雷延强,
申请(专利权)人:广州视源人工智能创新研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。