System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大模型的标注优化方法技术_技高网

一种基于大模型的标注优化方法技术

技术编号:40844513 阅读:6 留言:0更新日期:2024-04-01 15:12
本发明专利技术公开了一种基于大模型的标注优化方法,步骤如下:步骤一、构建标注任务管理平台,实现标注数据的管理、标注任务的管理、标注Prompt的管理;步骤二、搭建标注工具平台,基于标注工具平台来实现预标注结果的确认或修改;步骤三、进行裁定无效或者修改后的数据管理,基于该部分数据来实现相关的Prompt的不断优化和迭代;步骤四、构建大模型调用引擎,实现通用LLM调用的接入和调用,能够基于不同的任务选择不同的大模型来进行预处理。本发明专利技术能够有效提升标注效率和质量,实现在保障标注质量的前提下达到标注效率的成倍提升,并减少标注的人力成本,让更多的企业能够更专注在自身模型效果的提升上,从而创造更多的业务价值。

【技术实现步骤摘要】

本专利技术属于数据处理,具体涉及一种基于大模型的标注优化方法


技术介绍

1、在围绕自然语言理解、处理的机器学习、深度学习以及新兴的大语言模型(largelanguage model),都需要有大量的标注数据,所谓的标注数据即针对给定的任务数据,明确的按任务要求在输出中明确指出相关信息的具体情况(包含位置、原因、推理逻辑等明确信息)。模型(机器学习、深度学习、大语言模型都是以模型为主要服务载体)的效果主要依赖训练数据的质量和规模,为了持续提升模型的效果,需要不断的迭代训练数据,基于真实的数据来构造训练数据,周期的进行模型的训练,从而实现模型效果的持续提升。

2、目前在数据标注已经成为了一个新兴的行业,但往往是人力密集型,依赖大量的人力和特定的算法模型辅助来不断提升标注效率。特别是以自然语言理解为技术基底的公司,对于对话的标注的需求是极大的。各个公司也都有自己的不同规模的标注团队,基于开源、自建、三方标注平台来实现业务数据的快速标注。如何快速提升标注的效率并且确保标注的质量是行业在不断追求和探索的。

3、现有技术的缺点:

4、1、人力成本浪费,为了确保人为标注的标果,普遍采用交叉验证的方案,即一条数据至少由三个人来处理,采用三个结果中的多数结果,这就导致整体标注成本的浪费。

5、2、模型成本过高,为了提升整体标注的效率,采用专有模型进行数据的预处理,但针对不同的任务需要训练不同的模型来实现专项处理,一方面模型需要专门的算法或工程人员来专门实现和维护,另一方面模型需要持续的优化;这就导致为了提效引入和更多的成本;

6、3、沟通和学习成本过高,为了确保标注效果,需要让标注人员能更好的理解要标注的任务,以及学习涉及到的领域和行业知识,这需要相对高的沟通和学习成本,导致整体效率和质量无法快速提升。


技术实现思路

1、本专利技术为了解决上述现有技术中存在的缺陷和不足,提供了一种能够有效提升标注效率和质量,实现在保障标注质量的前提下达到标注效率的成倍提升,并减少标注的人力成本。让更多的企业能够更专注在自身模型效果的提升上,从而创造更多业务价值的基于大模型的标注优化方法。

2、本专利技术提供如下技术方案:一种基于大模型的标注优化方法,步骤如下:

3、步骤一、构建标注任务管理平台,实现标注数据的管理、标注任务的管理、标注prompt的管理;

4、步骤二、搭建标注工具平台,基于标注工具平台来实现预标注结果的确认或修改;

5、步骤三、进行裁定无效或者修改后的数据管理,基于该部分数据来实现相关的prompt的不断优化和迭代;

6、步骤四、构建大模型调用引擎,实现通用llm调用的接入和调用,能够基于不同的任务选择不同的大模型来进行预处理。

7、优选地,步骤一具体是指基于云环境或者内部环境搭建标注管理平台,核心目标是实现标注任务和对应的prompt的管理维护,确保每个标准任务有对应的预标注prompt和结果判定的prompt。

8、优选地,步骤二中标注工具平台是针对已经经过llm处理、确认或确认失败的数据进行最终人为裁定或修改。

9、优选地,步骤二中标注工具平台采用开源的标注工具,包括docano、label studio或者三方云厂商提供的标注平台,将llm处理后的数据导入标注工具平台,实现最终裁定。

10、优选地,步骤四中可以基于不同的标注任务采用不同的llm,各个llm有自身的领域优势,基于llm的差异化优势可以解决标注任务的跨行业问题。

11、优选地,三方云厂商提供的标注平台可以采用阿里云的标注平台、火山云的标注平台或者其他服务商提供的标注平台,标注工具只是作为预处理结果的裁定和修改,只要支持系统性导入数据即可。

12、优选地,使用的llm可以是底层llm厂商提供的能力,也可以是基于开源模型进行fine-tune的模型,还可以使用openai的gpt3.5、文心一言的llm、智普ai的llm、minimax的llm。

13、本专利技术的有益效果如下:

14、1、标注效率的成倍提升,大大提升整体标注效率。一方面避开了原有的交叉标注的传统约束,实现至少3倍的效率提升;另一方面,基于llm进行预处理,大部分情况人为只需要点击确认或少量修改,极大的减少了人为操作量,从而进一步提升整体效率;

15、2、标注成本的下降,减少了专有模型的构建和维护成本,使得标注任务不依赖算法工程人员的支持,用llm来替代自建的模型,用llm的调用成本来替代原有的模型成本,随着llm的成本的下降,整体成本下降会越来越明显;

16、3、沟通效率的提升,减弱了原有方案中需要标注人员先理解标准任务、学习标注任务的环节,用prompt来替代人的理解和学习,llm模型所拥有的泛行业知识相比标注人员要广泛,标注人员无需过多的学习相关任务所涉及的相关知识,可以快速上手。

17、4、效果可以持续优化,基于人为纠正的记录,可以进一步优化相关任务的prompt。解决了原有流程需要依赖好的标注人员和流程来持续优化结果的问题,依赖系统可以实现持续的效果优化;

18、5、多模型支撑,快速提升效果。针对市场上常见的llm,可以基于不同的标注任务采用不同的llm。各个llm有自身的领域优势,基于llm的差异化优势可以解决标注任务的跨行业问题,针对不同任务可以采用最适合的llm,相当于有不同的行业专家来进行差异化任务处理,和原有流程相比绕开专有模型的构建,极大的提高了新任务的启动效率。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的标注优化方法,其特征在于,步骤如下:

2.根据权利要求1所述的一种基于大模型的标注优化方法,其特征在于:步骤一具体是指基于云环境或者内部环境搭建标注管理平台,核心目标是实现标注任务和对应的Prompt的管理维护,确保每个标准任务有对应的预标注Prompt和结果判定的Prompt。

3.根据权利要求1所述的一种基于大模型的标注优化方法,其特征在于:步骤二中标注工具平台是针对已经经过LLM处理、确认或确认失败的数据进行最终人为裁定或修改。

4.根据权利要求3所述的一种基于大模型的标注优化方法,其特征在于:步骤二中标注工具平台采用开源的标注工具,包括docano、Label Studio或者三方云厂商提供的标注平台,将LLM处理后的数据导入标注工具平台,实现最终裁定。

5.根据权利要求1所述的一种基于大模型的标注优化方法,其特征在于:步骤四中可以基于不同的标注任务采用不同的LLM,各个LLM有自身的领域优势,基于LLM的差异化优势可以解决标注任务的跨行业问题。

6.根据权利要求4所述的一种基于大模型的标注优化方法,其特征在于:三方云厂商提供的标注平台可以采用阿里云的标注平台、火山云的标注平台或者其他服务商提供的标注平台,标注工具只是作为预处理结果的裁定和修改,只要支持系统性导入数据即可。

7.根据权利要求1所述的一种基于大模型的标注优化方法,其特征在于:使用的LLM可以是底层LLM厂商提供的能力,也可以是基于开源模型进行Fine-tune的模型,还可以使用OpenAI的GPT3.5、文心一言的LLM、智普AI的LLM、MiniMax的LLM。

...

【技术特征摘要】

1.一种基于大模型的标注优化方法,其特征在于,步骤如下:

2.根据权利要求1所述的一种基于大模型的标注优化方法,其特征在于:步骤一具体是指基于云环境或者内部环境搭建标注管理平台,核心目标是实现标注任务和对应的prompt的管理维护,确保每个标准任务有对应的预标注prompt和结果判定的prompt。

3.根据权利要求1所述的一种基于大模型的标注优化方法,其特征在于:步骤二中标注工具平台是针对已经经过llm处理、确认或确认失败的数据进行最终人为裁定或修改。

4.根据权利要求3所述的一种基于大模型的标注优化方法,其特征在于:步骤二中标注工具平台采用开源的标注工具,包括docano、label studio或者三方云厂商提供的标注平台,将llm处理后的数据导入标注工具平台,实现最终裁定。...

【专利技术属性】
技术研发人员:薛亮
申请(专利权)人:杭州百聆科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1