一种多模态大模型的适配方法及存储介质组成比例

技术编号:40711102 阅读:22 留言:0更新日期:2024-03-22 11:12
本发明专利技术提供了一种多模态大模型的适配方法及存储介质,在常规的多模态大模型的基础上增加了一个适配器,适配器能够将样本数据通过低维投射层转化为数据的低维表示,并通过非线性激活函数处理数据,可在原始网络先验的基础上快速学习新样本数据。且通过共享文本编码器中低维投射层的权重与图像编码器中低维投射层的权重,来更新文本编码器以及图像编码器中低维投射层的参数,将已有的模型快速适配至医学临床场景,有效避免了多模态大模型的灾难性遗忘和过拟合问题,并仅需极少量可训练参数,即可实现图像编码器以及文本编码器的联合微调。

【技术实现步骤摘要】

本专利技术涉及神经网络领域,特别涉及一种多模态大模型的适配方法及存储介质


技术介绍

1、clip是由openai提出的一种多模态神经网络,它能有效地借助自然语言的监督来学习视觉的概念。典型的视觉数据集是劳动密集型的,创建成本很高,且使用它们训练得到的标准视觉模型只擅长一项任务,导致适应新的任务并不容易。而clip在各种各样的图像上进行训练,同时依赖于互联网上大量自然语言的监督。clip可以用自然语言指示进行大量的分类基准。用户只需要提供要识别的视觉类别的名称,无需再在目标基准上面进行专门的训练。

2、与计算机视觉中以往的对比学习方法不同,clip使用文本-图像对作为其训练数据,努力学习图片和其对应描述之间的关系。这是通过将clip分为两个关键组成部分来实现的,即文本编码器和图像编码器,它们分别从文本和图像中提取特征。在这种情况下,文本编码器利用常见的自然语言处理(nlp)模型,例如transformer,而图像编码器采用知名的卷积神经网络(cnn)或vision transformer来提取图像特征。

3、然而,在医学图像与病例报本文档来自技高网...

【技术保护点】

1.一种多模态大模型的适配方法,其特征在于,具体包括如下步骤:

2.如权利要求1所述的多模态大模型的适配方法,其特征在于,

3.如权利要求1所述的多模态大模型的适配方法,其特征在于,

4.如权利要求1所述的多模态大模型的适配方法,其特征在于,

5.如权利要求4所述的多模态大模型的适配方法,其特征在于,

6.如权利要求4所述的多模态大模型的适配方法,其特征在于,

7.如权利要求1所述的多模态大模型的适配方法,其特征在于,

8.如权利要求1所述的多模态大模型的适配方法,其特征在于,

9.如权利要求...

【技术特征摘要】

1.一种多模态大模型的适配方法,其特征在于,具体包括如下步骤:

2.如权利要求1所述的多模态大模型的适配方法,其特征在于,

3.如权利要求1所述的多模态大模型的适配方法,其特征在于,

4.如权利要求1所述的多模态大模型的适配方法,其特征在于,

5.如权利要求4所述的多模态大模型的适配方法,其特征在于,

6.如权利要求4所述的多模态大模型的适配方法,其特征在于,

...

【专利技术属性】
技术研发人员:张立箎赵翔宇袁豪磊宋志云
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1