【技术实现步骤摘要】
本专利技术涉及数据收集,特别是指基于主动学习的标注数据质量评估方法。
技术介绍
1、现有技术中,标注数据质量评估方法广泛应用于机器学习和数据挖掘领域,主要通过获取标注者的历史标注数据并结合使用评分来训练和优化评估模型,以便为标注者分配更合理的任务。然而,这种方法常常依赖单一的质量评估标准,即使用评分。由于该反馈可能需要较长时间,如一个月,这导致模型的自我提升能力较差,优化速度缓慢,无法快速响应标注质量的变化。
2、在实际应用中,若标注者的标注风格或能力发生变化,单一的使用评分无法及时反映其最新的表现,可能导致对新标注数据的评估滞后,从而影响整个数据集的质量评估。这种局限性不仅影响了模型对标注质量的准确评估,也在一定程度上降低了任务分配的效率,进而影响了整个项目的进展和效果。
技术实现思路
1、本专利技术的目的在于提供基于主动学习的标注数据质量评估方法,旨在解决
技术介绍
中所提到的问题。
2、为解决上述技术问题,本专利技术的技术方案如下:
3、基于主动学习的
...【技术保护点】
1.基于主动学习的标注数据质量评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于主动学习的标注数据质量评估方法,其特征在于,根据优质标注数据和优质使用评分,构建标注质量评估模型,包括:
3.根据权利要求2所述的基于主动学习的标注数据质量评估方法,其特征在于,基于长短期记忆网络模型,构建第一标注质量评估模型,包括:
4.根据权利要求3所述的基于主动学习的标注数据质量评估方法,其特征在于,对输入数据和优质标注数据的特征向量进行处理,生成输入数据的质量评分,包括:
5.根据权利要求4所述的基于主动学习的标注数据
...【技术特征摘要】
1.基于主动学习的标注数据质量评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于主动学习的标注数据质量评估方法,其特征在于,根据优质标注数据和优质使用评分,构建标注质量评估模型,包括:
3.根据权利要求2所述的基于主动学习的标注数据质量评估方法,其特征在于,基于长短期记忆网络模型,构建第一标注质量评估模型,包括:
4.根据权利要求3所述的基于主动学习的标注数据质量评估方法,其特征在于,对输入数据和优质标注数据的特征向量进行处理,生成输入数据的质量评分,包括:
5.根据权利要求4所述的基于主动学习的标注数据质量评估方法,其特征在于,损失函数的计算公式为:
6.根据权利要求5所述的基于主动学...
【专利技术属性】
技术研发人员:吴立军,曾鹏飞,吴祥鑫,
申请(专利权)人:厦门两万里文化传媒有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。