多模态模型的训练方法、视觉问答任务的处理方法及设备技术

技术编号:45544310 阅读:18 留言:0更新日期:2025-06-17 18:18
本申请提供了一种多模态模型的训练方法、视觉问答任务的处理方法及设备,属于人工智能技术领域,训练方法包括:获取图像训练数据和文本训练数据;基于图像训练数据和文本训练数据对混合专家连接器进行跨模态全局对齐训练,得到第一混合专家连接器,基于图像训练数据和文本训练数据对第一混合专家连接器进行跨模态局部对齐训练,得到包括第二混合专家连接器的多模态模型;多模态模型用于基于第二混合专家连接器进行图像模态信息与文本模态信息的全局对齐和局部对齐,得到视觉问答任务的答案。本申请能够结合对图像和问题进行粗细粒度的跨模态对齐,从而提升视觉问答任务的答案的准确性。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种多模态模型的训练方法、视觉问答任务的处理方法及设备


技术介绍

1、视觉问答(isual auestion answer,vqa)是一项结合了计算机视觉、自然语言处理和跨模态理解的多模态任务,要求多模态模型理解输入图像与相关的自然语言问题,并生成合理的答案。相关技术中,为了将视觉模态(图像和视频)和语言模态(文本问题)的信息进行有效对齐,从而准确生成与问题语义相关的答案,一些多模态模型基于特征融合进行多模态信息的对齐融合,另一些多模态模型则在特征融合的基础上进一步引入额外的目标检测模型来进行更全面的多模态信息对齐。然而,仅基于特征融合无法捕获自然语言问题与图像中特定区域的对应关系,而引入额外的目标检测模型又会不可避免的引入额外的噪声,这就导致多模态模型处理视觉问答任务生成的答案的准确性较差。


技术实现思路

1、本申请实施例的主要目的在于提出一种多模态模型的训练方法、视觉问答任务的处理方法及设备,旨在结合对图像和问题进行粗细粒度的跨模态对齐,使得多模态模型既能全局理解图像和问题又本文档来自技高网...

【技术保护点】

1.一种多模态模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述图像训练数据和所述文本训练数据对混合专家连接器进行跨模态全局对齐训练,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述粗粒度图像特征和所述粗粒度文本特征对待训练的混合专家连接器进行跨模态全局对齐训练,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述多模态模型还包括视觉模型和语言模型,所述第二混合专家连接器分别与所述视觉模型和所述语言模型连接;

<...

【技术特征摘要】

1.一种多模态模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述图像训练数据和所述文本训练数据对混合专家连接器进行跨模态全局对齐训练,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述粗粒度图像特征和所述粗粒度文本特征对待训练的混合专家连接器进行跨模态全局对齐训练,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述多模态模型还包括视觉模型和语言模型,所述第二混合专家连接器分别与所述视觉模型和所述语言模型连接;

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一混合专家连接器对所述目标细粒度特征执行相似度比较处理,以及,基于所述第一混合专家连接器对所述目标细粒度特征对...

【专利技术属性】
技术研发人员:雷弘扬程晓龙陈腾纪络
申请(专利权)人:浙江吉利控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1