【技术实现步骤摘要】
本申请涉及视觉语言模型,特别是涉及一种基于视觉回归模型的多模态信息生成方法、装置及设备。
技术介绍
1、近年来,chatgpt和llama等大语言模型(large language model,llm)的出现,在自然语言处理领域引起了巨大反响,自然语言处理领域的各类任务都可以利用llm来解决,而无需针对各类任务分别设计和重新训练模型。然而在实际生活中,人们接触到的信息往往是多个模态的,比如文本、视觉、语音等等,研究者们开始将llm的理解能力拓展至多个模态并构建多模态大语言模型(multimodal large language model,mllm)。
2、但目前的存在多模态大语言模型固有的缺陷:视觉编码器和视觉生成器是分别预训练得到的,其预训练质量限制了视觉-语言mllm的潜力; llm本质上仍是对文本信息进行处理,并没有获得多模态的推理能力。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种基于视觉回归模型的多模态信息生成方法、装置及设备,至少能够通过预先训练的视
...【技术保护点】
1.一种基于视觉回归模型的多模态信息生成方法,其特征在于,包括:
2.根据权利要求1所述的基于视觉回归模型的多模态信息生成方法,其特征在于,通过以下步骤基于预先训练好的目标视觉语言模型对待处理图像进行处理:
3.根据权利要求2所述的基于视觉回归模型的多模态信息生成方法,其特征在于,采用二维位置编码对多模态目标图像令牌进行位置编码的步骤包括:
4.根据权利要求1所述的基于视觉回归模型的多模态信息生成方法,其特征在于,通过以下步骤基于预先训练好的目标视觉语言模型对待处理文本进行处理:
5.根据权利要求1所述的基于视觉回归模型
...【技术特征摘要】
1.一种基于视觉回归模型的多模态信息生成方法,其特征在于,包括:
2.根据权利要求1所述的基于视觉回归模型的多模态信息生成方法,其特征在于,通过以下步骤基于预先训练好的目标视觉语言模型对待处理图像进行处理:
3.根据权利要求2所述的基于视觉回归模型的多模态信息生成方法,其特征在于,采用二维位置编码对多模态目标图像令牌进行位置编码的步骤包括:
4.根据权利要求1所述的基于视觉回归模型的多模态信息生成方法,其特征在于,通过以下步骤基于预先训练好的目标视觉语言模型对待处理文本进行处理:
5.根据权利要求1所述的基于视觉回归模型的多模态信息生成方法,其特征在于,通过以下步骤基于预先训练好的目标视觉语言模型对待处理...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。