基于远程监督算法增强大语言模型多标签意图的分类方法技术

技术编号:43509739 阅读:38 留言:0更新日期:2024-11-29 17:12
本发明专利技术提供一种基于远程监督算法增强大语言模型多标签意图的分类方法,获取车机语音埋点数据中的用户输入,对输入文本进行数据清洗并随机选取部分种子样本进行人工预标注,形成种子标注数据集;基于该数据集,利用远程监督算法从中析出规则模板并基于模板对其他未标注样本进行自动标注,扩充标注数据集,得到大语言模型微调训练集;将此训练集按一定格式送入大语言模型微调接口,用LoRA进行微调;构造提示词工程,将当前用户输入填充到提示词预留槽位,形成多标签意图分类提示词;将提示词输入微调后的大语言模型进行推理,输出对应的多标签意图列表。本发明专利技术解决了大语言模型微调训练数据获取和标注难度大的问题,实现了车主用车多意图识别功能。

【技术实现步骤摘要】

本专利技术涉及车机意图识别领域,更具体地,涉及一种基于远程监督算法增强大语言模型多标签意图的分类方法


技术介绍

1、传统车机对于车主用车意图识别依赖于供应商提供的词汇库与固定规则模板进行解析,该方式通常只能识别预设的固定指令,对于非标准表达往往无法正确理解;同时缺乏上下文理解能力,无法根据对话的连续性和环境变化准确识别车主多种用车意图。近年来,随着车载娱乐车机的智能化发展,智能化车机语义理解技术实现了车主通过语音方式进行人机对话。结合自然语言处理技术,智能化车机能够从对话中进行意图识别,生成指令快速完成车辆控制。但受限于车主语言表达的多样性与多意图标签分类算法训练数据标注难度大的限制,意图识别算法仍无法有效识别车主多种意图。基于自然语言处理技术的用车多意图识别、意图强弱排序等智能车机语义理解能力仍需要提升。

2、远程监督算法(distant supervision)是一种半监督学习算法,其基本假设是对于一个已有的数据集中的三元组(由一对实体和一个关系构成),外部未标注数据中任何包含这对实体的句子在一定程度上都反映了这种关系。基于这个假设,远程本文档来自技高网...

【技术保护点】

1.一种基于远程监督算法增强大语言模型多标签意图的分类方法,其特征在于,

2.根据权利要求1所述的基于远程监督算法增强大语言模型多标签意图的分类方法,其特征在于,所述的种子标注数据集具体通过以下方式得到:

3.根据权利要求1所述的基于远程监督算法增强大语言模型多标签意图的分类方法,其特征在于,所述的大语言模型微调训练集具体通过以下方式得到:

4.根据权利要求1所述的基于远程监督算法增强大语言模型多标签意图的分类方法,其特征在于,所述的使用LoRA方法对大语言模型进行微调具体为:

5.根据权利要求2所述的基于远程监督算法增强大语言模型多标签意...

【技术特征摘要】

1.一种基于远程监督算法增强大语言模型多标签意图的分类方法,其特征在于,

2.根据权利要求1所述的基于远程监督算法增强大语言模型多标签意图的分类方法,其特征在于,所述的种子标注数据集具体通过以下方式得到:

3.根据权利要求1所述的基于远程监督算法增强大语言模型多标签意图的分类方法,其特征在于,所述的大语言模型微调训练集具体通过以下方式得到:

4.根据权利要求1所述的基于远程监督算法增强大语言模型多标签意图的分类方法,其特征在于,所述的使用lora方法对大语言模型进行微调具体为:

5.根据权利要求2所述的基于远程监督算法增强大语言模型多标签意图的分类方法,其特征在于,所述的数据清洗的规则为:

6.根据权利要...

【专利技术属性】
技术研发人员:熊鹰飞吕承杰余繁荣李玉明许朋涛
申请(专利权)人:东风汽车集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1