【技术实现步骤摘要】
本专利技术涉及自然语言处理,更具体地,涉及一种基于大语言模型的分层众包标注方法。
技术介绍
1、随着机器学习模型规模和复杂度的不断增长,高质量数据成为实现模型良好性能的重要保障因素。然而,随着模型规模的迅速扩大,由于高质量数据供应不足,导致了对能够满足现代机器学习需求的数据标注替代方法的需求增加。
2、在现有技术中,数据标注方法主要包括基于众包的方法和自动化数据标注方法。传统的基于众包的标注方法将数据标注任务分配给大量人类标注者,并整合推断出正确的结果,以实现数据标注。目前的基于众包的方法采用一些标签推理和激励机制,以及结果聚合算法,如多数投票、加权投票、朴素贝叶斯等,还包括根据数据的噪音率清理具有最高噪音率的数据等技术。自动化数据标注方法通过将大型语言模型作为标注者进行数据标注。一些技术使用mlaas(机器学习作为服务)apis进行数据标注,例如,基于数据和预算的优化来选择apis组合,以实现准确性和成本的权衡。随着服务行业向maas(模型作为服务)的转变,更多的技术开始利用语言模型apis进行数据标注,例如,将gpt-3
...【技术保护点】
1.一种基于大语言模型的分层众包标注方法,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述利用开源的语言模型的效用作为众包标注者,独立地为所述数据集提供标签包括以下子步骤:
3.根据权利要求2所述的方法,其特征在于,在所述标签分布更新过程中,采用以下公式更新标签概要分布:
4.根据权利要求3所述的方法,其特征在于,所述重新标注任务选择的目标是通过选择大小为k的查询集(T’)*向所述大语言模型提问,以最大化期望数据质量提高进而选择最大化结果集空间熵值的任务集;
5.根据权利要求4所述的方法,其特征在于,在所述
...【技术特征摘要】
1.一种基于大语言模型的分层众包标注方法,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述利用开源的语言模型的效用作为众包标注者,独立地为所述数据集提供标签包括以下子步骤:
3.根据权利要求2所述的方法,其特征在于,在所述标签分布更新过程中,采用以下公式更新标签概要分布:
4.根据权利要求3所述的方法,其特征在于,所述重新标注任务选择的目标是通过选择大小为k的查询集(t’)*向所述大语言模型提问,以最大化期望数据质量提高进而选择最大化结果集空间熵值的任务集;
5.根据权利要求4所述的方法,其特征在于,在所述重新任务选择...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。