System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于正负相关样例微调大模型的领域意图识别方法技术_技高网

一种基于正负相关样例微调大模型的领域意图识别方法技术

技术编号:44186172 阅读:23 留言:0更新日期:2025-02-06 18:27
本发明专利技术公开了一种基于正负相关样例微调大模型的领域意图识别方法,步骤如下:S1、句向量生成,通过行业的无标签数据微调一个行业特定的embedding模型;S2、通过步骤S1得到的embedding模型生成行业有标签数据的向量并构建向量索引库;S3、构建候选意图及例句,基于索引库进行相似句检索,生成当前样本的候选意图及例句;S4、大模型微调,构造微调数据进行大模型微调。本发明专利技术在依赖大模型做意图识别或分类的场景中,能够解决由于行业信息的缺失导致大模型在特定领域或行业下的意图识别能力有限的问题,通过在特定行业数据下微调大模型,提升行业的识别效果;对于意图数量较多的行业,也能达到不错的识别效果。

【技术实现步骤摘要】

本专利技术属于数据处理,具体地说是一种基于正负相关样例微调大模型的领域意图识别方法


技术介绍

1、在智能客服应用中,对话机器人的核心模块是意图识别,旨在理解用户问句并给出正确的意图类别,对于不同的行业,定义的意图集合都有所不同。在大模型出现之前,意图识别大多使用传统的深度学习模型或bert类的预训练语言模型,而这些模型需要行业特定的数据进行训练或微调。模型效果依赖于数据的质量和丰富度,特别是在意图类别较多的情况下,数据不平衡是一个常见问题,数据量少的意图往往识别效果有限;且传统模型的规模与复杂度也限制了模型的能力。

2、而由于大模型在预训练阶段和指令微调阶段已经整合了大规模数据的相关知识,模型已经具有一定的表达能力,在预测阶段,可以直接基于指令提示词进行分类。而对于包含几百甚至几千个意图的行业场景,由于上下文长度的限制,可能无法在提示词中给出所有的意图名称,且模型容易出现遗忘。为了解决多意图的问题,可以通过检索增强生成rag(retrieval-augmented generation)的方式,检索当前用户问句的相似句及对应意图,限制提供给大模型的意图数量。这种方法虽然在一定程度上缓解了多意图的识别问题,但是由于漏召回、错误召回问题,仍会影响大模型的识别效果。而且大模型的识别能力依赖于预训练及指令微调阶段所见过的数据,如果某个行业在预训练阶段包含的数据量较少,那么模型在该行业的知识和理解能力是欠缺的,而行业信息的缺失会限制大模型在该领域的理解和识别能力,影响识别效果。

3、因此,需要一种基于大模型的面向特定领域或行业的意图识别方法,在具备行业识别能力的同时,能适应多意图的识别场景。


技术实现思路

1、针对现有技术的不足,本专利技术提供一种基于正负相关样例微调大模型的领域意图识别方法,在依赖大模型做意图识别或分类的场景中,能够解决由于行业信息的缺失导致大模型在特定领域或行业下的意图识别能力有限的问题,通过在特定行业数据下微调大模型,提升行业的识别效果;同时,对于意图数量较多的行业,也能达到不错的识别效果。

2、本专利技术的技术方案如下:一种基于正负相关样例微调大模型的领域意图识别方法,步骤如下:

3、s1、句向量生成,通过行业的无标签数据微调一个行业特定的embedding模型;

4、s2、构建向量索引,通过步骤s1得到的embedding模型生成行业有标签数据的向量并构建向量索引库;

5、s3、构建候选意图及例句,基于索引库进行相似句检索,生成当前样本的候选意图及例句;

6、s4、大模型微调,构造微调数据进行大模型微调。

7、优选地,所述步骤s1在句向量生成阶段,旨在为行业语料和用户问句query生成向量表征,为后续的检索阶段提供输入数据;虽然存在一些通用的用于检索的embedding模型,但是对于特定行业的检索能力仍是有限的;为了增强特定垂直领域的召回和检索能力,需要行业特定的embedding模型。

8、优选地,所述步骤s1具体行业特定的embedding模型的训练方式步骤如下:

9、1)数据准备:准备行业下的大量无标签数据集合u;

10、2)模型准备:需要准备两个模型,其中一个作为teacher模型用于样本筛选,另一个作为student模型用于微调;通过api调用的方式选择了qwen系列模型作为teacher模型,记为模型t,选择了bge-large-zh-v1.5作为student模型,记为模型s;

11、3)正负样本构建:将数据集u中的每个样本ui输入模型s中,得到向量集合hu;通过计算向量之间的余弦相似度,给数据集u中的每个样本ui召回topk的相似句;将相似度分数高于阈值的相似句作为xi的候选正样本集合,x将相似度分数在0.4-0.7之间的相似句作为候选负样本集合;对候选正样本集合中的样本根据相似度从大到小排序,将当前样本xi与候选正样本输入给模型t,让其判断它们的相似性,将模型t判断为相似的候选正样本加入xi的正样本集合pi={pk,k∈rk}中(k表示正样本集合的大小),直到集合大小达到预设值;对于候选负样本集中,随机选取一个负样本,让模型t判断该负样本与当前样本xi的相似性,将模型t判断为不相似的样本加入到xi的负样本集合ni={nj,j∈rj}中(j表示负样本集合的大小),直到负样本集合大小满足预设值;选取正样本集合大小k=1,负样本集合大小j=5;

12、4)模型微调:通过正负样本的构建,可以得到每条微调数据的格式为{x,p,n},x为当前问句,p为x的正样本集合,n为x的负样本集合。将所有微调数据输入到模型s中进行微调,将完成微调后的模型(记为s’)进行存储,用于后续步骤的向量生成。

13、优选地,所述步骤s2中在构建向量索引阶段,将通过步骤1生成的语料库向量入库,生成向量索引。

14、优选地,所述步骤s2中具体的执行步骤如下:

15、1)数据准备:在行业的意图识别任务下,需要准备用于分类的labeled数据集c={x,y},即每个输入句子xi都有一个对应的意图标签yi;

16、2)索引构建:通过步骤s1得到的向量模型s’,为数据集c中的每个输入样本xi生成对应的向量,得到labeled数据的向量集合ht={hi,i∈rn}(n表示数据集大小);通过向量检索工具faiss生成向量集合ht的向量索引库i并进行存储。

17、优选地,所述步骤s3中利用大模型进行意图分类时,需要给大模型提供可供选择的意图;在多意图的场景下,为了保证模型的效果,需要限制提供给大模型的意图数量;同时,为了增强大模型对特定行业的理解能力,除了正确意图在候选意图中的正相关样本,还额外构建了正确意图不在候选意图中的负相关样本。

18、优选地,所述步骤s3中构建候选意图及例句具体的执行步骤如下:

19、1)遍历labeled数据集c中的每个样本xi,在步骤s2生成的索引库i中,根据余弦相似句召回topk的相似句(不包括xi),每个相似句都有对应的意图,将这些意图作为样本xi的候选意图,得到样本xi的候选意图及例句集合li表示候选意图,si表示候选意图li的例句集合,例句集合大小|si|最大为5,集合l的大小|li|根据相似度排序,最多取前10个候选意图;

20、2)根据yi是否在候选意图集合li中,将候选意图集合分为lp和ln,lp为正相关样本集合,即候选意图集合包含正确意图yi;ln为负相关样本集合,即候选意图集合中不包含正确意图lp,lp和ln的占比分别为r和1-r;

21、3)在相似句检索后,ln的比例往往达不到期望值,需要对这部分的样本做扩充,首先随机选取一个样本xi,然后在除了yi的其他意图中随机选取k个意图作为候选意图(k∈[1,10]),计算当前样本xi与这k个意图下所有语料的余弦相似度,对于每个候选意图,在相似度大于0.5的样本下随机选择m个样本作为该意本文档来自技高网...

【技术保护点】

1.一种基于正负相关样例微调大模型的领域意图识别方法,其特征在于,其步骤如下:

2.根据权利要求1所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤S1在句向量生成阶段,旨在为行业语料和用户问句query生成向量表征,为后续的检索阶段提供输入数据;虽然存在一些通用的用于检索的embedding模型,但是对于特定行业的检索能力仍是有限的;为了增强特定垂直领域的召回和检索能力,需要行业特定的embedding模型。

3.根据权利要求2所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:

4.根据权利要求1所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤S2中在构建向量索引阶段,将通过步骤1生成的语料库向量入库,生成向量索引。

5.根据权利要求4所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤S2中具体的执行步骤如下:

6.根据权利要求1所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤S3中利用大模型进行意图分类时,需要给大模型提供可供选择的意图;在多意图的场景下,为了保证模型的效果,需要限制提供给大模型的意图数量;同时,为了增强大模型对特定行业的理解能力,除了正确意图在候选意图中的正相关样本,还额外构建了正确意图不在候选意图中的负相关样本。

7.根据权利要求6所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤S3中构建候选意图及例句具体的执行步骤如下:

8.根据权利要求1所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤S4中经过上一步骤后,每条数据都包括一个输入样本xi,正确意图yi,以及候选意图及例句集合Li;通过这些领域数据对大模型进行微调,得到特定领域的意图识别模型。

9.根据权利要求8所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤S4具体微调步骤如下:

10.根据权利要求1所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤S1-句向量生成阶段,可以选择不同的大模型和句向量生成模型作为微调的基础模型;在构建正负样本的过程中,相似度的计算方式可以是欧式距离等其他相似度度量方法;除了根据特定分数区间选择候选负样本,也可以随机选取;

...

【技术特征摘要】

1.一种基于正负相关样例微调大模型的领域意图识别方法,其特征在于,其步骤如下:

2.根据权利要求1所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤s1在句向量生成阶段,旨在为行业语料和用户问句query生成向量表征,为后续的检索阶段提供输入数据;虽然存在一些通用的用于检索的embedding模型,但是对于特定行业的检索能力仍是有限的;为了增强特定垂直领域的召回和检索能力,需要行业特定的embedding模型。

3.根据权利要求2所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:

4.根据权利要求1所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤s2中在构建向量索引阶段,将通过步骤1生成的语料库向量入库,生成向量索引。

5.根据权利要求4所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤s2中具体的执行步骤如下:

6.根据权利要求1所述的基于正负相关样例微调大模型的领域意图识别方法,其特征在于:所述步骤s3中利用大模型进行意图分类时,需要给大模型提供可供选择的意图;在多意图的场景...

【专利技术属性】
技术研发人员:薛亮
申请(专利权)人:杭州百聆科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1