【技术实现步骤摘要】
本专利技术涉及计算机技术应用领域,特别是涉及一种多模态大型语言模型训练方法、电子设备及存储介质。
技术介绍
1、随着chatgpt、bloom、llama等大型语言模型在文本生成和理解方面的强大能力而引起广泛的关注。这些模型可以通过指令微调进一步与用户的意图相一致,显示出强大的交互能力和作为智能助手提高生产力的潜力。然而,大型语言模型只适用于纯文本,缺乏处理图像、语音和视频模态的能力,这在很大程度上限制了模型的应用范围。为打破这一限制,以大型语言模型(llm)作为语言解码器,多模态大型语言模型(mllms)如minigpt-4、llava、mplug-owl、qwen-vl等旨在增强具有感知和理解视觉信号能力的大型语言模型,在各种开放式视觉和语言任务中表现出了显著的零样本能力,并在各领域展现出非凡能力。这些多模态大型语言模型在训练第一阶段被训练成对齐文本和图像,在第二阶段通过指令调优促进模型的泛化能力。由于mllms在没有明确训练视觉文本理解数据集的情况下,缺乏对模型的具体训练,使得mllms仍然面临着理解视觉文本和不同类型图像中的对象
...【技术保护点】
1.一种多模态大型语言模型训练方法,其特征在于,所述多模态大型语言模型至少包括大型语言模型和图文对齐模型,所述方法包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,任一图像样本的图像特征向量集合通过如下步骤获取得到:
3.根据权利要求2所述的方法,其特征在于,S10具体包括:
4.根据权利要求1所述的方法,其特征在于,在S300中,任一图像压缩特征向量集合对应的图像压缩特征向量集合通过如下步骤获取得到:
5.根据权利要求1所述的方法,其特征在于,所述图文对齐模型为Q-Former。
6.根据权利要求2
...【技术特征摘要】
1.一种多模态大型语言模型训练方法,其特征在于,所述多模态大型语言模型至少包括大型语言模型和图文对齐模型,所述方法包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,任一图像样本的图像特征向量集合通过如下步骤获取得到:
3.根据权利要求2所述的方法,其特征在于,s10具体包括:
4.根据权利要求1所述的方法,其特征在于,在s300中,任一图像压缩特征向量集合对应的图像压缩特征向量集合通过如下步骤获取得到:
5.根据权利要求1所述的方法,其特征在于,所述图文对齐模型为q-former。
6.根据权利要求2所述的方法,其...
【专利技术属性】
技术研发人员:罗引,郝艳妮,陈博,马先钦,徐楠,曹家,王磊,
申请(专利权)人:北京中科闻歌科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。