基于视觉回归模型的多模态信息生成方法、装置及设备制造方法及图纸

技术编号：44719412 阅读：20 留言：0更新日期：2025-03-21 17:47

本申请涉及一种基于视觉回归模型的多模态信息生成方法、装置及设备。方法包括：获取待处理图像和/或文本；将待处理图像和/或文本输入预先训练好的目标视觉语言模型，得到与待处理图像和/或文本相关联的目标图像和/或目标文本；其中，视觉语言模型包括多尺度图像编码器、令牌编码模块、VLM主干网络和多尺度解码器。至少能够通过预先训练的视觉语言模型，形成多模态数据的处理能力和推理能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视觉语言模型，特别是涉及一种基于视觉回归模型的多模态信息生成方法、装置及设备。

技术介绍

1、近年来，chatgpt和llama等大语言模型（large language model，llm）的出现，在自然语言处理领域引起了巨大反响，自然语言处理领域的各类任务都可以利用llm来解决，而无需针对各类任务分别设计和重新训练模型。然而在实际生活中，人们接触到的信息往往是多个模态的，比如文本、视觉、语音等等，研究者们开始将llm的理解能力拓展至多个模态并构建多模态大语言模型（multimodal large language model，mllm）。

2、但目前的存在多模态大语言模型固有的缺陷：视觉编码器和视觉生成器是分别预训练得到的，其预训练质量限制了视觉-语言mllm的潜力； llm本质上仍是对文本信息进行处理，并没有获得多模态的推理能力。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种基于视觉回归模型的多模态信息生成方法、装置及设备，至少能够通过预先训练的视...

【技术保护点】

1.一种基于视觉回归模型的多模态信息生成方法，其特征在于，包括：

2.根据权利要求1所述的基于视觉回归模型的多模态信息生成方法，其特征在于，通过以下步骤基于预先训练好的目标视觉语言模型对待处理图像进行处理：

3.根据权利要求2所述的基于视觉回归模型的多模态信息生成方法，其特征在于，采用二维位置编码对多模态目标图像令牌进行位置编码的步骤包括：

4.根据权利要求1所述的基于视觉回归模型的多模态信息生成方法，其特征在于，通过以下步骤基于预先训练好的目标视觉语言模型对待处理文本进行处理：

5.根据权利要求1所述的基于视觉回归模型的多模态信息生成方法...

【技术特征摘要】

1.一种基于视觉回归模型的多模态信息生成方法，其特征在于，包括：

3.根据权利要求2所述的基于视觉回归模型的多模态信息生成方法，其特征在于，采用二维位置编码对多模态目标图像令牌进行位置编码的步骤包括：

5.根据权利要求1所述的基于视觉回归模型的多模态信息生成方法，其特征在于，通过以下步骤基于预先训练好的目标视觉语言模型对待处理...

【专利技术属性】
技术研发人员：刘云霄，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人