一种多模态大型语言模型训练方法、电子设备及存储介质技术

技术编号:40103341 阅读:27 留言:0更新日期:2024-01-23 18:02
本发明专利技术提供了多模态大型语言模型训练方法、电子设备和存储介质,涉及计算机技术应用领域,包括:利用第一训练样本对图文对齐模型进行训练,得到训练后的图文对齐模型;第二训练样本对大型语言模型进行训练,第一训练样本对包含一个第一图像样本和对应的原始文本;第一图像样本仅包括自然图像;第二训练样本集包括多个第二训练样本对,每个第二训练样本对包含一个第二图像样本和对应的问答对文本,其中,第二图像样本中设置有目标检测框,第二图像样本至少包括文档、表格、图表和自然图像。本发明专利技术能够理解不同种类的图表和文档数据,且具有对图片中的区域准确定位的能力,能够解锁更加多样的多模态能力。

【技术实现步骤摘要】

本专利技术涉及计算机技术应用领域,特别是涉及一种多模态大型语言模型训练方法、电子设备及存储介质


技术介绍

1、随着chatgpt、bloom、llama等大型语言模型在文本生成和理解方面的强大能力而引起广泛的关注。这些模型可以通过指令微调进一步与用户的意图相一致,显示出强大的交互能力和作为智能助手提高生产力的潜力。然而,大型语言模型只适用于纯文本,缺乏处理图像、语音和视频模态的能力,这在很大程度上限制了模型的应用范围。为打破这一限制,以大型语言模型(llm)作为语言解码器,多模态大型语言模型(mllms)如minigpt-4、llava、mplug-owl、qwen-vl等旨在增强具有感知和理解视觉信号能力的大型语言模型,在各种开放式视觉和语言任务中表现出了显著的零样本能力,并在各领域展现出非凡能力。这些多模态大型语言模型在训练第一阶段被训练成对齐文本和图像,在第二阶段通过指令调优促进模型的泛化能力。由于mllms在没有明确训练视觉文本理解数据集的情况下,缺乏对模型的具体训练,使得mllms仍然面临着理解视觉文本和不同类型图像中的对象之间的复杂关系的挑战本文档来自技高网...

【技术保护点】

1.一种多模态大型语言模型训练方法,其特征在于,所述多模态大型语言模型至少包括大型语言模型和图文对齐模型,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,任一图像样本的图像特征向量集合通过如下步骤获取得到:

3.根据权利要求2所述的方法,其特征在于,S10具体包括:

4.根据权利要求1所述的方法,其特征在于,在S300中,任一图像压缩特征向量集合对应的图像压缩特征向量集合通过如下步骤获取得到:

5.根据权利要求1所述的方法,其特征在于,所述图文对齐模型为Q-Former。

6.根据权利要求2所述的方法,其特征在...

【技术特征摘要】

1.一种多模态大型语言模型训练方法,其特征在于,所述多模态大型语言模型至少包括大型语言模型和图文对齐模型,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,任一图像样本的图像特征向量集合通过如下步骤获取得到:

3.根据权利要求2所述的方法,其特征在于,s10具体包括:

4.根据权利要求1所述的方法,其特征在于,在s300中,任一图像压缩特征向量集合对应的图像压缩特征向量集合通过如下步骤获取得到:

5.根据权利要求1所述的方法,其特征在于,所述图文对齐模型为q-former。

6.根据权利要求2所述的方法,其...

【专利技术属性】
技术研发人员:罗引郝艳妮陈博马先钦徐楠曹家王磊
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1