一种针对多模态目标检测大模型的推理加速方法技术

技术编号：43164606 阅读：33 留言：0更新日期：2024-11-01 19:57

本发明专利技术公开了一种针对多模态目标检测大模型的推理加速方法，其包括以下步骤：S1、提取待部署模型的目标文本标签的文本语义向量；S2、依据文本语义向量构建文本语义线性层；S3、将待部署模型中的文本编码器部分替换为文本语义线性层，再将模型保存为一个完整的模型权重结构；S4、以新的多模态目标检测大模型进行推理。本方案可使多模态目标检测大模型在部署推理时显著提升推理效率并减少部署模型的显存资源消耗，且对模型推理时的精度不会造成影响。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域的目标检测领域，尤其是涉及一种针对多模态目标检测大模型的推理加速方法。

技术介绍

1、目标检测(od)是计算机视觉领域的一个基础任务，通过各种深度神经网络的整合取得了显著进展。传统的固定类别闭集od方法经过广泛研究，逐渐稳定下来，主要关注两个方向：改进检测器结构以实现更高的准确性和开发具有更快推理速度的实时检测器。目标检测中的一个新兴研究方向是开放词汇表目标检测(ovd)，其使用的模型也被称为多模态目标检测大模型，其目标是通过整合语言信息来指导检测器，以检测超出训练数据范围的目标对象。而这类模型的好处是在预训练完成后的推理阶段时，可以不局限于仅仅对训练集中的目标类别进行检测，还能对超出训练范围的新目标类别实现泛化。目前，大多数ovd模型是通过将语言模态整合到固定类别闭集检测器中来开发的。尽管取得了这些进展，现有的ovd模型仍受到高计算复杂性和延长的推理时间的困扰，阻碍了它们在商业应用中的实际部署。

2、针对上述问题，目前迫切需要一种针对ovd多模态目标检测大模型的推理加速技术，从而缓解大模型推理时...

【技术保护点】

1.一种针对多模态目标检测大模型的推理加速方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种针对多模态目标检测大模型的推理加速方法，其特征在于，所述步骤S1具体为：

3.根据权利要求2所述的一种针对多模态目标检测大模型的推理加速方法，其特征在于，所述步骤S2具体为：

4.根据权利要求2所述的一种针对多模态目标检测大模型的推理加速方法，其特征在于，所述步骤S2具体为：

5.根据权利要求3所述的一种针对多模态目标检测大模型的推理加速方法，其特征在于，所述步骤S4中，文本语义线性层A和B进行的训练过程为：

<...

【技术特征摘要】

1.一种针对多模态目标检测大模型的推理加速方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种针对多模态目标检测大模型的推理加速方法，其特征在于，所述步骤s1具体为：

3.根据权利要求2所述的一种针对多模态目标检测大模型的推理加速方法，其特征在于，所述步骤s2具体为：

4.根据权利要求2所述的一种针对多模态目标检测大模型的推理加...

【专利技术属性】
技术研发人员：赵天成，刘鹏，许若晨，张倩倩，张璐，
申请(专利权)人：杭州联汇科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人