基于主动学习的标注数据质量评估方法技术

技术编号:43719903 阅读:45 留言:0更新日期:2024-12-20 12:49
本发明专利技术提供基于主动学习的标注数据质量评估方法,涉及数据收集技术领域,所述方法包括:获取历史标注数据和历史使用评分,并根据历史使用评分对历史标注数据进行筛选,得到优质标注数据并构建标注质量评估模型,分析标注者擅长的标注数据类型,将未标注的任务数据分配给标注者,得到实时标注数据集,将实时标注数据集输入至标注质量评估模型,得到第一质量评分,将实时标注数据集进行交互印证,得到第二质量评分,通过对比得到偏差值,当偏差值小于预设阈值时,对标注质量评估模型进行初步调整,当接收实时标注数据集的使用评分后,对标注质量评估模型进行二次调整;本发明专利技术能够提高质量评估方法。

【技术实现步骤摘要】

本专利技术涉及数据收集,特别是指基于主动学习的标注数据质量评估方法


技术介绍

1、现有技术中,标注数据质量评估方法广泛应用于机器学习和数据挖掘领域,主要通过获取标注者的历史标注数据并结合使用评分来训练和优化评估模型,以便为标注者分配更合理的任务。然而,这种方法常常依赖单一的质量评估标准,即使用评分。由于该反馈可能需要较长时间,如一个月,这导致模型的自我提升能力较差,优化速度缓慢,无法快速响应标注质量的变化。

2、在实际应用中,若标注者的标注风格或能力发生变化,单一的使用评分无法及时反映其最新的表现,可能导致对新标注数据的评估滞后,从而影响整个数据集的质量评估。这种局限性不仅影响了模型对标注质量的准确评估,也在一定程度上降低了任务分配的效率,进而影响了整个项目的进展和效果。


技术实现思路

1、本专利技术的目的在于提供基于主动学习的标注数据质量评估方法,旨在解决
技术介绍
中所提到的问题。

2、为解决上述技术问题,本专利技术的技术方案如下:

3、基于主动学习的标注数据质量评估方法本文档来自技高网...

【技术保护点】

1.基于主动学习的标注数据质量评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于主动学习的标注数据质量评估方法,其特征在于,根据优质标注数据和优质使用评分,构建标注质量评估模型,包括:

3.根据权利要求2所述的基于主动学习的标注数据质量评估方法,其特征在于,基于长短期记忆网络模型,构建第一标注质量评估模型,包括:

4.根据权利要求3所述的基于主动学习的标注数据质量评估方法,其特征在于,对输入数据和优质标注数据的特征向量进行处理,生成输入数据的质量评分,包括:

5.根据权利要求4所述的基于主动学习的标注数据质量评估方法,其特征...

【技术特征摘要】

1.基于主动学习的标注数据质量评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于主动学习的标注数据质量评估方法,其特征在于,根据优质标注数据和优质使用评分,构建标注质量评估模型,包括:

3.根据权利要求2所述的基于主动学习的标注数据质量评估方法,其特征在于,基于长短期记忆网络模型,构建第一标注质量评估模型,包括:

4.根据权利要求3所述的基于主动学习的标注数据质量评估方法,其特征在于,对输入数据和优质标注数据的特征向量进行处理,生成输入数据的质量评分,包括:

5.根据权利要求4所述的基于主动学习的标注数据质量评估方法,其特征在于,损失函数的计算公式为:

6.根据权利要求5所述的基于主动学...

【专利技术属性】
技术研发人员:吴立军曾鹏飞吴祥鑫
申请(专利权)人:厦门两万里文化传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1