一种多模态大模型的优化方法、装置和电子设备制造方法及图纸

技术编号：45133723 阅读：18 留言：0更新日期：2025-05-06 17:54

本申请公开了一种多模态大模型的优化方法、装置和电子设备，方法包括：对基础多模态大模型进行训练，得到过程奖励模型；利用基础多模态大模型对训练图像进行图像描述的逐句推理；针对推理得到的每个当前句，利用所述过程奖励模型确定所述当前句的各个候选描述是否正确，将所述当前句的正确候选描述用于图像描述的下一句推理；基于逐句推理所得各句描述中成对的正确候选描述和错误候选描述，确定成对的正确图像描述和错误图像描述，作为过程监督数据；基于训练图像和所述过程监督数据对所述基础多模态大模型进行优化，得到抑制幻觉的多模态大模型。应用本申请，能够在进行图像描述时有效改善幻觉抑制的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及神经网络技术，特别涉及一种多模态大模型的优化方法、装置和电子设备。

技术介绍

1、图像描述一直是视觉方向的一个重要研究领域，能够针对图像给出其文字描述。在多模态大模型兴起之后，该领域取得了巨大的发展：图像描述的细致程度和丰富程度得到了巨大提升，图像描述不再只是对图像主体目标的简单描述。但另一方面多模态大模型应用到图像描述中，也为描述引入了更多的幻觉内容，出现了“说”得多，对的多，错的也多的现象。为了抑制图像描述幻觉问题，目前主流的技术包括对比解码（contrastivedecoding）和结果监督奖励（outcome-supervised reward models）的方式，对多模态大模型进行优化，从而实现图像描述的幻觉抑制。目前来看，对比解码推理效率低，输出不稳定；结果监督奖励监督信号不明确，幻觉抑制效果不佳。

技术实现思路

1、本申请提供一种多模态大模型的优化方法、装置和电子设备，能够在进行图像描述时有效改善幻觉抑制的性能。

2、为实现上述目的，本申请采用如下技术方案：

本文档来自技高网...

【技术保护点】

1.一种多模态大模型的优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述图像描述的每个当前句进行校正得到的所述标签数据包括：所述当前句是否正确的信息，对于错误当前句进行修正后对应得到的正确当前句；

3.根据权利要求1所述的方法，其特征在于，对于任一当前句，所述成对的正确候选描述和错误候选描述为一对，包括：在所述任一当前句的所有候选描述中选择出的一个正确候选描述和一个错误候选描述；或者，

4.根据权利要求1所述的方法，其特征在于，所述确定成对的正确图像描述和错误图像描述，包括：

5.根据权利要求1所述的方法，其特征...

【技术特征摘要】

1.一种多模态大模型的优化方法，其特征在于，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定成对的正确图像描述和错误图像描述，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定成对的正确图像描述和错误图...

【专利技术属性】
技术研发人员：李逸飞，迟子秋，王金，
申请(专利权)人：杭州海康威视数字技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人