【技术实现步骤摘要】
本申请涉及神经网络技术,特别涉及一种多模态大模型的优化方法、装置和电子设备。
技术介绍
1、图像描述一直是视觉方向的一个重要研究领域,能够针对图像给出其文字描述。在多模态大模型兴起之后,该领域取得了巨大的发展:图像描述的细致程度和丰富程度得到了巨大提升,图像描述不再只是对图像主体目标的简单描述。但另一方面多模态大模型应用到图像描述中,也为描述引入了更多的幻觉内容,出现了“说”得多,对的多,错的也多的现象。为了抑制图像描述幻觉问题,目前主流的技术包括对比解码(contrastivedecoding)和结果监督奖励(outcome-supervised reward models)的方式,对多模态大模型进行优化,从而实现图像描述的幻觉抑制。目前来看,对比解码推理效率低,输出不稳定;结果监督奖励监督信号不明确,幻觉抑制效果不佳。
技术实现思路
1、本申请提供一种多模态大模型的优化方法、装置和电子设备,能够在进行图像描述时有效改善幻觉抑制的性能。
2、为实现上述目的,本申请采用如下技术
本文档来自技高网...
【技术保护点】
1.一种多模态大模型的优化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对所述图像描述的每个当前句进行校正得到的所述标签数据包括:所述当前句是否正确的信息,对于错误当前句进行修正后对应得到的正确当前句;
3.根据权利要求1所述的方法,其特征在于,对于任一当前句,所述成对的正确候选描述和错误候选描述为一对,包括:在所述任一当前句的所有候选描述中选择出的一个正确候选描述和一个错误候选描述;或者,
4.根据权利要求1所述的方法,其特征在于,所述确定成对的正确图像描述和错误图像描述,包括:
5.根据权利要求
...【技术特征摘要】
1.一种多模态大模型的优化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对所述图像描述的每个当前句进行校正得到的所述标签数据包括:所述当前句是否正确的信息,对于错误当前句进行修正后对应得到的正确当前句;
3.根据权利要求1所述的方法,其特征在于,对于任一当前句,所述成对的正确候选描述和错误候选描述为一对,包括:在所述任一当前句的所有候选描述中选择出的一个正确候选描述和一个错误候选描述;或者,
4.根据权利要求1所述的方法,其特征在于,所述确定成对的正确图像描述和错误图像描述,包括:
5.根据权利要求1所述的方法,其特征在于,所述确定成对的正确图像描述和错误图...
【专利技术属性】
技术研发人员:李逸飞,迟子秋,王金,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。