当前位置: 首页 > 专利查询>上海大学专利>正文

基于大模型的用户意图半自动化标注方法、系统、介质及设备技术方案

技术编号:40079886 阅读:26 留言:0更新日期:2024-01-17 02:26
本发明专利技术提供了一种基于大模型的用户意图半自动化标注方法、系统、介质及设备,包括:步骤1:确定目标大模型LLM<subgt;0</subgt;,并根据原始会话数据S<subgt;0</subgt;生成部分原始意图数据D<subgt;0</subgt;;步骤2:专家部分修正意图数据,得到修正后的意图数据步骤3:构建专家决策器Bert,并基于D<subgt;0</subgt;和训练Bert;步骤4:设初始最优大模型LLM<supgt;(0)</supgt;=LLM<subgt;0</subgt;,并用微调目标大模型LLM<subgt;0</subgt;;步骤5:构建循环微调机制;步骤6:判断Bert性能,得到最终模型。本发明专利技术结合大模型和人工修正实现意图的自动化标注,减少了人力成本。

【技术实现步骤摘要】

本专利技术涉及大模型微调,具体地,涉及一种基于大模型的用户意图半自动化标注方法、系统、介质及设备


技术介绍

1、生成式语言大模型作为一类强大的自然语言处理(nlp)模型,已成为目前的研究热点,其能够理解人类语言的含义和语法,同时也可以生成与输入数据相关的文本。对于无监督任务,模型可以生成文本、执行自然语言理解任务,如情感分析。对于有监督任务,可以进行文本分类、命名实体识别等,因此生成式大模型也越来越多的被应用于各种专业领域中。

2、然而由于大模型背后的预训练数据大多来自日常生活场景,缺少专业领域知识的学习,模型生成的结果也差强人意,于是越来越多的研究注重于对模型微调技术的处理。

3、大多数现有对于大模型微调的研究聚焦于微调指令的设计与数据的构建,而缺少对微调后大模型的评估工作。对于结构要求较高的标注数据,微调后的大模型直接运用于数据标注存在输出标注数据不规范的缺陷。

4、专利文献(申请号:cn202311059060.6)公开了一种基于问卷和大模型的医学队列随访对话辅助方法及系统,包括:医学知识图谱模块、大语言模型模块本文档来自技高网...

【技术保护点】

1.一种基于大模型的用户意图半自动化标注方法,其特征在于,包括:

2.根据权利要求1所述的基于大模型的用户意图半自动化标注方法,其特征在于,将以指定格式输入LLM0,得到专家微调后的大模型LLM1,表达式为:

3.根据权利要求2所述的基于大模型的用户意图半自动化标注方法,其特征在于,所述步骤5包括:

4.根据权利要求3所述的基于大模型的用户意图半自动化标注方法,其特征在于,所述步骤6包括:

5.一种基于大模型的用户意图半自动化标注系统,其特征在于,包括:

6.根据权利要求5所述的基于大模型的用户意图半自动化标注系统,其特征在于,...

【技术特征摘要】

1.一种基于大模型的用户意图半自动化标注方法,其特征在于,包括:

2.根据权利要求1所述的基于大模型的用户意图半自动化标注方法,其特征在于,将以指定格式输入llm0,得到专家微调后的大模型llm1,表达式为:

3.根据权利要求2所述的基于大模型的用户意图半自动化标注方法,其特征在于,所述步骤5包括:

4.根据权利要求3所述的基于大模型的用户意图半自动化标注方法,其特征在于,所述步骤6包括:

5.一种基于大模型的用户意图半自动化标注系统,其特征在于,包括:

6.根据权利要求5所述的基于大模型的用户意图半自动化标注系统,其特征在于,将以指定格式输入llm0,得到专家微调后的大...

【专利技术属性】
技术研发人员:朱能军梁陈美锦孙凌丹陆羿勋
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1