一种为视觉大模型添加适配器的方法及装置制造方法及图纸

技术编号：40044614 阅读：6 留言：0更新日期：2024-01-16 20:15

本申请公开了一种为视觉大模型添加适配器的方法及装置，涉及深度学习模型技术领域，将业务场景中的图‑文多模态大模型中的视觉大模型单独提取出来，在保证原始视觉大模型识别能力的基础上，针对不同的业务场景分别训练一种适配器，使视觉大模型具有面对多种场景的通用识别能力；根据不同的线上需求选择集中式部署或分布式部署，集中式部署中视觉大模型与各个适配器共用一个推理图，适用于单节点服务器，分布式部署中视觉大模型与各个适配器部署于不同节点，通过协议通信进行数据交互，适用于集群多节点服务器，减少部署成本的同时保证了识别速度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及深度学习模型，具体涉及一种为视觉大模型添加适配器的方法及装置。

技术介绍

1、图-文多模态大模型是一种综合利用图像和文本信息的深度学习模型。它通过同时处理图像和文本数据，将两种模态的信息进行融合和交互，以提高对复杂任务的理解和推理能力。在图-文多模态大模型中，通常包含视觉大模型和文本大模型两个主要组件：

2、视觉大模型(visualmodel)：视觉大模型用于处理图像数据，并从中提取和学习图像的特征表示。视觉大模型可以是一个基于卷积神经网络(cnn)的模型，例如resnet、inception等，用于图像的特征提取和表示学习。

3、文本大模型(text model)：文本大模型用于处理文本数据，并学习文本的特征表示。文本大模型可以是一个基于循环神经网络(rnn)或transformer模型的模型，例如lstm、bert等，用于对文本进行编码和特征提取。

4、随着深度学习模型参数量的增多和训练数据规模的不断增大，使得图-文多模态大模型具有非常强大的图像、文本识别和生成能力。由于文本大模型提供了图片相关的丰富的语义信息，所以图-文多模态大模型中的视觉大模型与普通视觉模型相比，其图片的识别和生成能力进一步提升。

5、但是，视觉大模型参数量的增多也意味着部署成本和难度的增加，而且现实的业务场景中往往需要根据不同的业务需求来部署不同的模型。如果部署多个视觉大模型，成本大量增加的同时也会造成线上模型识别速度的降低。

技术实现思路

1、为

2、为了实现上述目的，本申请提供如下技术方案：

3、第一方面，一种为视觉大模型添加适配器的方法，包括：

4、步骤1：从原始图-文多模态大模型中提取出视觉大模型；

5、步骤2：搭建多个适配器并根据不同的业务场景分别训练多个所述适配器；

6、步骤3：将所述视觉大模型和多个所述适配器转换为相同的文件格式；

7、步骤4：将所述视觉大模型和多个所述适配器进行融合并部署到一个服务器上；或者将所述视觉大模型和多个所述适配器根据需求分别部署到多个服务器上，其中，所述视觉大模型为服务端，多个所述适配器为客户端，所述视觉大模型和多个所述适配器之间通过协议通信进行数据交互。

8、作为优选，所述适配器包括多尺度特征提取模块、特征交互模块和分类器模块，其中，所述多尺度特征提取模块由多个卷积层组成，所述特征交互模块由一个交叉注意力层和一个卷积神经层组成，所述分类器模块由一个线性层组成。

9、作为优选，所述步骤2中训练多个所述适配器时所述视觉大模型的参数固定，所述适配器的参数根据业务相关数据进行更新。

10、作为优选，所述步骤3中，所述文件格式为onnx交换格式。

11、作为优选，所述步骤4中，部署所述视觉大模型和多个所述适配器时使用nvidiatriton深度学习推理引擎。

12、作为优选，所述步骤4中，所述协议通信为http/gprc协议。

13、第二方面，一种为视觉大模型添加适配器的装置，包括：

14、视觉大模型提取模块，用于从原始图-文多模态大模型中提取出视觉大模型；

15、适配器训练模块，用于搭建多个适配器并根据不同的业务场景分别训练多个所述适配器；

16、格式转换模块，用于将所述视觉大模型和多个所述适配器转换为相同的文件格式；

17、部署模块，用于将所述视觉大模型和多个所述适配器进行融合并部署到一个服务器上；或者将所述视觉大模型和多个所述适配器根据需求分别部署到多个服务器上，其中，所述视觉大模型为服务端，多个所述适配器为客户端，所述视觉大模型和多个所述适配器之间通过协议通信进行数据交互。

18、第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种为视觉大模型添加适配器的方法的步骤。

19、第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种为视觉大模型添加适配器的方法的步骤。

20、相比现有技术，本申请至少具有以下有益效果：

21、本申请提供了一种为视觉大模型添加适配器的方法及装置，将业务场景中的图-文多模态大模型中的视觉大模型单独提取出来，在保证原始视觉大模型识别能力的基础上，针对不同的业务场景分别训练一种适配器，使视觉大模型具有面对多种场景的通用识别能力；根据不同的线上需求选择集中式部署或分布式部署，集中式部署中视觉大模型与各个适配器共用一个推理图，适用于单节点服务器，分布式部署中视觉大模型与各个适配器部署于不同节点，通过协议通信进行数据交互，适用于集群多节点服务器，减少部署成本的同时保证了识别速度。

本文档来自技高网...

【技术保护点】

1.一种为视觉大模型添加适配器的方法，其特征在于，包括：

2.根据权利要求1所述的为视觉大模型添加适配器的方法，其特征在于，所述适配器包括多尺度特征提取模块、特征交互模块和分类器模块，其中，所述多尺度特征提取模块由多个卷积层组成，所述特征交互模块由一个交叉注意力层和一个卷积神经层组成，所述分类器模块由一个线性层组成。

3.根据权利要求1所述的为视觉大模型添加适配器的方法，其特征在于，所述步骤2中训练多个所述适配器时所述视觉大模型的参数固定，所述适配器的参数根据业务相关数据进行更新。

4.根据权利要求1所述的为视觉大模型添加适配器的方法，其特征在于，所述步骤3中，所述文件格式为ONNX交换格式。

5.根据权利要求1所述的为视觉大模型添加适配器的方法，其特征在于，所述步骤4中，部署所述视觉大模型和多个所述适配器时使用NVIDIA TRITON深度学习推理引擎。

6.根据权利要求1所述的为视觉大模型添加适配器的方法，其特征在于，所述步骤4中，所述协议通信为HTTP/gPRC协议。

7.一种为视觉大模型添加适配器的装置，其特征在于，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种为视觉大模型添加适配器的方法，其特征在于，包括：

4.根据权利要求1所述的为视觉大模型添加适配器的方法，其特征在于，所述步骤3中，所述文件格式为onnx交换格式。

5.根据权利要求...

【专利技术属性】
技术研发人员：吕伊凯，周吴夏朗，杜晓祥，
申请(专利权)人：北京云上曲率科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人