【技术实现步骤摘要】
一种面向文本序列的高性价比众包工人选择方法及装置
[0001]本专利技术涉及众包任务分配
,特别是指一种面向文本序列的高性价比众包工人选择方法及装置。
技术介绍
[0002]众包是一种高效率、低成本的数据收集方法,工人选择是众包标注过程的一种优化方法,通过对众包工人的评估和选择,提升产出标注的整体质量。众包工人选择在深度学习的数据集构建方面具有重大的理论价值和实践意义。
[0003]现有方法大多都是在简单的分类标注任务上设计和测试的,没有考虑到在自然语言处理中的文本序列标注任务上,临近的标签间是存在复杂的上下文依赖关系的。在文本序列标注任务上的众包工人选择相比于简单分类上是更具挑战性的。
[0004]现有的工作在文本序列标注任务的众包标注上主要研究标注聚合问题,包括基于隐马尔可夫链(HMM)的方法和完全贝叶斯(Bayesian)的方法等。这类方法通常是在众包标注全部完成后进行的,不能在标注过程中对工人的可靠性变化进行针对性的选择优化,导致最终产生的标注质量参差不齐。
[0005]因此,在现有技术 ...
【技术保护点】
【技术特征摘要】
1.一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述方法包括:S1、获得样本标注数据集和众包工人集合;S2、建立工人选择初步模型;S3、根据所述样本标注数据集和所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型;S4、对所述样本标注数据集进行拟人修改,获得标注增强数据集;S5、根据所述标注增强数据集,对所述工人选择模型进行可靠性测验,获得可靠的工人选择模型;S6、将待标注数据集和待选择众包工人集合输入所述可靠的工人选择模型,获得众包工人最优选择。2.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述样本标注数据集由长度不等的待标注样本文本序列组成。3.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述工人选择初步模型根据组合多臂老虎机模型和组合置信上界算法进行构建。4.根据权利要求1所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述根据所述样本标注数据集和所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型,包括:根据所述样本标注数据集给所述众包工人集合中的工人分配标注任务,获得第一标注任务结果;根据所述第一标注任务结果进行测评,获得工人初始平均分数;根据所述工人初始平均分数以及所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型。5.根据权利要求4所述的一种面向文本序列的高性价比众包工人选择方法,其特征在于,所述根据所述工人初始平均分数以及所述众包工人集合,对所述工人选择初步模型进行训练,获得工人选择模型,包括:S31、设置所述标注数据集中需要标注的轮次总数为N,当前标注轮次为i,令i=1,众包工人从第1轮到第i轮的平均分数为F
i
,F0为工人初始平均分数;S32、判断i是否大于N,如果i大于N,则执行步骤S35,如果i小于等于N,则执行步骤S33;S33、根据所述工人选择初步模型和众包工人平均分数F
i
‑1,从工人中选择平均分数最高的n个工人进行标注工作,获得第i标注任务结果;S34、根据标注任务结果通过标注评测方法进行评测,获得众包工人平均分数,其中,所述标注任务结果为第i次工人对样本标注数据集标注的标注结果,所述众包工人平均分数为第i次标注后的众包工人平均分数F
i
,令i=i+1;执行步骤S32;S35、标注任务停止,获得众包工人平均分数F
i
;根据所述众包工人平均分数F
i
,获得工人选择模型。6.根据权利要求5所述的一种面...
【专利技术属性】
技术研发人员:杨麟儿,王誉杰,刘洋,黄超,黄雅平,房智轩,杨尔弘,
申请(专利权)人:北京语言大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。