当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于大语言模型的分层众包标注方法技术

技术编号:41880312 阅读:42 留言:0更新日期:2024-07-02 00:34
本发明专利技术公开了一种基于大语言模型的分层众包标注方法。该方法包括:获取数据集,所述数据集包含未标注标签;利用开源的语言模型的效用作为众包标注者,独立地为所述数据集提供标签,并采用设定的聚合策略合并标签,获得初步标注的数据集;调用大语言模型对所述初步标注的数据集进行重新标注,获得重新标注数据集,该重新标注过程包括重新标注任务选择、答案收集和标签分布更新的循环序列,直到满足设定的预算约束。本发明专利技术提供了层次结构框架,通过多个语言模型的协同工作和标签分布更新,实现了有限资源下对数据进行高效标注,并提升了标注质量。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,更具体地,涉及一种基于大语言模型的分层众包标注方法


技术介绍

1、随着机器学习模型规模和复杂度的不断增长,高质量数据成为实现模型良好性能的重要保障因素。然而,随着模型规模的迅速扩大,由于高质量数据供应不足,导致了对能够满足现代机器学习需求的数据标注替代方法的需求增加。

2、在现有技术中,数据标注方法主要包括基于众包的方法和自动化数据标注方法。传统的基于众包的标注方法将数据标注任务分配给大量人类标注者,并整合推断出正确的结果,以实现数据标注。目前的基于众包的方法采用一些标签推理和激励机制,以及结果聚合算法,如多数投票、加权投票、朴素贝叶斯等,还包括根据数据的噪音率清理具有最高噪音率的数据等技术。自动化数据标注方法通过将大型语言模型作为标注者进行数据标注。一些技术使用mlaas(机器学习作为服务)apis进行数据标注,例如,基于数据和预算的优化来选择apis组合,以实现准确性和成本的权衡。随着服务行业向maas(模型作为服务)的转变,更多的技术开始利用语言模型apis进行数据标注,例如,将gpt-3作为数据标注者,ap本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的分层众包标注方法,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述利用开源的语言模型的效用作为众包标注者,独立地为所述数据集提供标签包括以下子步骤:

3.根据权利要求2所述的方法,其特征在于,在所述标签分布更新过程中,采用以下公式更新标签概要分布:

4.根据权利要求3所述的方法,其特征在于,所述重新标注任务选择的目标是通过选择大小为k的查询集(T’)*向所述大语言模型提问,以最大化期望数据质量提高进而选择最大化结果集空间熵值的任务集;

5.根据权利要求4所述的方法,其特征在于,在所述重新任务选择过程包括...

【技术特征摘要】

1.一种基于大语言模型的分层众包标注方法,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述利用开源的语言模型的效用作为众包标注者,独立地为所述数据集提供标签包括以下子步骤:

3.根据权利要求2所述的方法,其特征在于,在所述标签分布更新过程中,采用以下公式更新标签概要分布:

4.根据权利要求3所述的方法,其特征在于,所述重新标注任务选择的目标是通过选择大小为k的查询集(t’)*向所述大语言模型提问,以最大化期望数据质量提高进而选择最大化结果集空间熵值的任务集;

5.根据权利要求4所述的方法,其特征在于,在所述重新任务选择...

【专利技术属性】
技术研发人员:张昊迪聂金银伍楷舜唐小惠
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1