增强多模态大语言模型视觉感知能力的方法、模型和装置制造方法及图纸

技术编号：42644362 阅读：40 留言：0更新日期：2024-09-06 01:40

本发明专利技术涉及计算机视觉技术领域，提供了一种增强多模态大语言模型视觉感知能力的方法、模型和装置。方法包括：使用第一视觉专家模型对图像进行全景分割，得到全景分割图，使用第二视觉专家模型对图像进行深度预测，得到深度图；根据所述全景分割图和所述深度图，生成视觉元信息；根据所述视觉元信息和用户查询，生成文本特征；其中，所述文本特征包括用户查询中的语义信息和所述视觉元信息中的结构信息；从图像中提取视觉特征，将所述视觉特征和所述文本特征输入至大语言模型中，得到视觉感知结果。本发明专利技术通过生成视觉元信息，将视觉元信息与语言模型相结合，从而有效促进视觉感知能力与语言推理能力的深度融合。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，特别是涉及一种增强多模态大语言模型视觉感知能力的方法、模型和装置。

技术介绍

1、高效、鲁棒和可信赖的视觉感知能力是人类理解和与世界互动的基本和关键能力。最近，受大语言模型前所未有的智能水平的激励，研究人员试图赋予大语言模型同样的感知能力，以构建通用助手。由此产生的多模态大语言模型展示了多功能的视觉能力，能够执行包括图像描述、视觉问答甚至图像生成在内的广泛视觉语言任务。

2、尽管取得了巨大的成功，但越来越多的证据表明，当前多模态大语言模型的视觉感知能力仍存在不足，这显著阻碍了当前模型的广泛应用。许多努力已经进行，以缓解视觉缺陷问题，从设计更好的模型架构到探索更好的视觉表示和收集更多高质量数据。与这些解决方案不同的是，在这项工作中，本专利技术旨在从新的角度解决这个问题：充分利用现成的视觉专家模型。视觉专家模型，也称为任务特定模型，在过去几十年中取得了显著进展，其感知能力远超人类专家。它们强大的任务和领域特定的感知能力可以理想地补充当前的多模态大语言模型。

3、目前，视觉专家模型在开发先进的...

【技术保护点】

1.一种增强多模态大语言模型视觉感知能力的方法，其特征在于，包括：

2.根据权利要求1所述的增强多模态大语言模型视觉感知能力的方法，其特征在于，所述根据所述全景分割图和所述深度图，生成视觉元信息，具体包括：

3.根据权利要求2所述的增强多模态大语言模型视觉感知能力的方法，其特征在于，所述使用对象的空间信息、对象的边界框以及所述全景分割图中各对象的类别，整合得到所述视觉元信息，具体包括：

4.根据权利要求1所述的增强多模态大语言模型视觉感知能力的方法，其特征在于，所述根据所述视觉元信息和用户查询，生成文本特征，具体包括：

5.根据权利要求1所...

【技术特征摘要】

1.一种增强多模态大语言模型视觉感知能力的方法，其特征在于，包括：

4.根据权利要求1所述的增强多模态大语言模型视觉感知能力的方法，其特征在于，所述根据所述视觉元信息和用户查询，生成文本特征，具体包括：

5.根据权利要求1所述的增强多模态大语言模型视觉感知能力的方法，其特征在于，所述从图像中提取视觉特征，具体包括：

6.一种增强多模态大语言模型，其特...

【专利技术属性】
技术研发人员：王兴刚，李应悦，杨澍生，刘文予，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人