大语言模型训练方法、训练数据获取方法和意图识别方法技术

技术编号:46018297 阅读:10 留言:0更新日期:2025-08-05 19:24
本申请公开了一种大语言模型训练方法、训练数据获取方法和意图识别方法,涉及人工智能技术领域,包括:电子设备获取原始数据集。原始数据集包括多个对话数据。电子设备基于预设的数据维度,对原始数据集中的对话数据进行组别划分,得到多个分组。电子设备分别从多个分组中进行数据采样,将采样后的对话数据的合集作为训练数据集。电子设备将训练数据集作为大语言模型的输入进行模型训练,获取训练后的大语言模型。基于不同的数据维度对原始数据集进行分组和采样等数据处理,得到的各个训练数据集在各个数据维度分布比较均衡,基于该训练数据集训练得到的大语言模型具有较高的准确率。

【技术实现步骤摘要】

本申请实施例涉及人工智能,尤其涉及一种大语言模型训练方法、训练数据获取方法和意图识别方法


技术介绍

1、在基于大语言模型的对话场景中,用户对话指令中通常存在多个意图和槽位,需要通过大语言模型准确地分发用户对话指令中的意图并提取相关槽位内容,从而基于意图与槽位的值进行相应的应答处理。如何训练得到一个准确性较高的大语言模型成为关键问题。

2、常用的模型训练方法是,对原始数据集随机采样获取训练数据集。将训练数据集输入到初始的大语言模型中进行模型训练,在模型达到预设的指标条件时,得到训练好的大语言模型。

3、但是,不同的对话场景中,甚至是同一对话场景中,不同对话指令所包含的意图和槽位存在多维度的不同,上述对原始数据集随机采样获取训练数据集,基于这种训练数据集进行模型训练,得到的大语言模型存在准确性不高的问题。


技术实现思路

1、本申请实施例提供一种大语言模型训练方法、训练数据获取方法和意图识别方法,基于不同的数据维度对原始数据集进行分组和采样等数据处理,从而得到各个数据维度分布比较均衡的训练本文档来自技高网...

【技术保护点】

1.一种大语言模型训练方法,其特征在于,所述大语言模型应用于人机对话场景,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设的数据维度包括数据类型、意图分类、对话轮数以及非空槽位组合中至少一项,所述预设的数据维度包括多项时,每一项数据维度具有对应的优先级,

3.根据权利要求2所述的方法,其特征在于,所述预设的数据维度包括数据类型、意图分类、对话轮数以及非空槽位组合,所述数据类型的优先级高于所述意图分类的优先级,所述意图分类的优先级高于所述对话轮数的优先级,所述对话轮数的优先级高于所述非空槽位组合的优先级,

4.根据权利要求1-3中任一项...

【技术特征摘要】

1.一种大语言模型训练方法,其特征在于,所述大语言模型应用于人机对话场景,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设的数据维度包括数据类型、意图分类、对话轮数以及非空槽位组合中至少一项,所述预设的数据维度包括多项时,每一项数据维度具有对应的优先级,

3.根据权利要求2所述的方法,其特征在于,所述预设的数据维度包括数据类型、意图分类、对话轮数以及非空槽位组合,所述数据类型的优先级高于所述意图分类的优先级,所述意图分类的优先级高于所述对话轮数的优先级,所述对话轮数的优先级高于所述非空槽位组合的优先级,

4.根据权利要求1-3中任一项所述的方法,其特征在于,所述预设的数据维度包括数据类型,所述数据类型包括第一数据类型和第二数据类型,

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述数据修正处理包括槽位补充、修正筛选、拆分多轮数据以及多样性校验中的至少一项;

7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述电子设备按照对话数据的复杂度由低到高的顺序,对所述训练数据集中每一个数据类型下的对话数据进行排序,得到第一训练数据集,包括:

9.根据权利要求8所述的方法,其特征在于,所述电子设备按照对话数据的复杂度由低到高的顺序,对各所述对话数据子集中的对话数据进行排序,将排序后的所有对话数据子集的合集作为所述第一训练数据集...

【专利技术属性】
技术研发人员:林文瑞张云柯徐成国崔和涛黄凯鑫
申请(专利权)人:荣耀终端股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1