一种大模型的最优嵌入位置的快速搜索方法技术

技术编号:44984135 阅读:11 留言:0更新日期:2025-04-15 17:02
本发明专利技术公开了一种大模型的最优嵌入位置的快速搜索方法,其特征在于,所述方法包括:选取任务的数据集的K个代表性样本,构建一个用于搜索最优嵌入位置的代表集,其中K不宜过大;将代表集所有样本,同时输入给多模态大模型(MLLM),和特定任务的小模型,并引入特征融合模块,对MLLM的第i个Transformer模块的特征和小模型最终层的特征进行融合;冻结小模型的参数,对MLLM的所有参数进行k步的参数高效微调,其中k不宜过大;微调的每一步,对参数关于损失函数求梯度向量的二范数,得到k个梯度二范数,并对k个梯度二范数加权求和,得到适应度;更换随机数种子,重复第2到4步,进行P次重复实验,其中P不应过大也不应过小,取3到30次为宜;对i在1到T取值范围中做迭代,每步迭代重复2到5步,得到不同嵌入位置的平均适应度,最终选择平均适应度最大的i<supgt;*</supgt;作为最优嵌入位置,其中T为MLLM总层数。本发明专利技术提供的大模型的最优嵌入位置的快速搜索方法,具有搜索速度快,任务拓展性强的特点,特别适用于需要快速对大模型进行小模型知识融合的场景。

【技术实现步骤摘要】

本专利技术涉及计算机科学,大模型,多模态大模型,人工智能,深度学习,模式识别领域,尤其涉及一种大模型的最优嵌入位置的快速搜索方法


技术介绍

1、多模态大模型通常在海量的通用数据集上进行预训练,这使其在处理广泛的通用任务时表现得非常强大。然而,当应用到特定的下游任务时,通用预训练模型往往显得力不从心。为了解决这个问题,当前的ai社区探索了一种利用预训练好的小模型来提升下游任务表现的策略。这些小模型专门针对不同的下游任务进行了优化,并在隐藏层中包含了宝贵的特定任务知识。因此,将这些小模型的隐藏层特征融入大型语言模型(llm)成为一个具有吸引力的研究方向。

2、然而,现有的知识融合方法大多简单地将小模型的特征嵌入到llm的第一层,这样的做法引发了显著的特征等级不匹配问题。这是由于llm的第一层主要处理输入的token级别特征,而小模型隐藏层输出的是经过复杂处理的高级任务特征。直接将这两者在同一级别进行对齐,会导致信息丢失或特征不匹配的问题,从而降低模型性能。

3、为了解决这一问题,寻找llm内部的最优嵌入位置成为必要。这一任务挑战在于多本文档来自技高网...

【技术保护点】

1.一种大模型的最优嵌入位置的快速搜索方法,其特征在于,所述方法包括:

2.如权利要求1所述的大模型的最优嵌入位置的快速搜索方法,其特征在于,所述A包括:

3.如权利要求2所述的大模型的最优嵌入位置的快速搜索方法,其特征在于,所述特征融合模块的定义如下:

4.如权利要求3所述的大模型的最优嵌入位置的快速搜索方法,其特征在于,所述C为:

5.如权利要求4所述的大模型的最优嵌入位置的快速搜索方法,其特征在于,所述适应度E(i)的定义为:

6.如权利要求5所述的大模型的最优嵌入位置的快速搜索方法,其特征在于,平均适应度最大的i*定义为...

【技术特征摘要】

1.一种大模型的最优嵌入位置的快速搜索方法,其特征在于,所述方法包括:

2.如权利要求1所述的大模型的最优嵌入位置的快速搜索方法,其特征在于,所述a包括:

3.如权利要求2所述的大模型的最优嵌入位置的快速搜索方法,其特征在于,所述特征融合模块的定义如下:

4.如权利要求3所述的大模型的最优嵌入位置的快速搜索方法,其特征在于,...

【专利技术属性】
技术研发人员:黄双萍杨帆黄森
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1