【技术实现步骤摘要】
本专利技术涉及多模态理解与语言交互,具体而言,尤其涉及一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法。
技术介绍
1、随着视觉语言模型的发展,通过对大规模图文数据对进行预训练对齐和指令调整,视觉-语言问答推理模型在下游应用(如基于文本的目标检测、图像标题生成和基于文本的图像生成等等)都表现出了良好的泛化能力。
2、基于大型语言模型的视觉语言推理框架和训练流程推动了视觉语言模型向其他模态的扩展,包括视频、音频和点云等模态。然而,这些方法受限于单模态输入的语言推理任务,即语言模型仅能理解单一模态输入数据例如图像、视频、音频或点云。这种将单模态数据注入大型语言模型的单模态语言推理难以应对像我们人类一样在实际生活中感知不同模态的挑战。
3、因此,为了解决这一问题,目前的方法x-llm(图像、视频、音频模态对齐的语言推理模型)、chatbridge(对话桥接多模态语言推理模型)、onellm(统一多模态语言推理模型)探索了多模态输入的语言推理任务,但这些方法大体上都需要特定于模态的预训练和联合多模态数据
...【技术保护点】
1.一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法,其特征在于,步骤如下:
2.根据权利要求1所述的一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法,所述的可学习令牌是指随机初始化的可学习参数。
3.根据权利要求1所述的一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法,所述的前馈层1和前馈层2为全连接层。
【技术特征摘要】
1.一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法,其特征在于,步骤如下:
2.根据权利要求1所述的一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。