当前位置: 首页 > 专利查询>哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院专利>正文

一种基于多模态的对比解码幻觉减轻方法、装置及终端制造方法及图纸

技术编号：43398256 阅读：28 留言：0更新日期：2024-11-19 18:15

本发明专利技术公开了一种基于多模态的对比解码幻觉减轻方法、装置及终端，方法包括：获取目标初始数据，对所述目标初始数据进行多模态扰动处理，得到目标扰动数据，所述目标初始数据包括目标高清图像及其对应的目标文本提示词；将所述目标初始数据和所述目标扰动数据输入至目标模型，得到初始输出和幻觉输出，所述目标模型为大型视觉语言模型；对所述初始输出和所述幻觉输出进行对比解码，得到目标输出。本发明专利技术通过添加多模态的噪声，并将其与初始输出进行对比，从而校准模型的预测，减少生产错误信息的可能性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多模态大模型，特别涉及一种基于多模态的对比解码幻觉减轻方法、装置及终端。

技术介绍

1、在现有技术中，对比解码通常需要引入额外的模型来进行对比和验证。这意味着除了原本的大模型之外，还需要额外的计算资源和存储空间来运行这些辅助模型。这不仅增加了系统的复杂性，还会导致计算资源开销增大，从而降低整体性能。此外，对比解码最初作为自然语言处理领域的一项技术被提出，往往局限于单模态（例如文本模态）。在处理多模态大模型的幻觉时，单模态的对比解码方法无法充分利用多模态的特性。因此，需要一种更高效、更专业的方式来解决这个问题。

2、因此，现有技术还有待改进和提高。

技术实现思路

1、针对现有技术的上述缺陷，本专利技术提供一种基于多模态的对比解码幻觉减轻方法、装置及终端，旨在解决现有技术中对比解码方法需要引入额外的模型且无法充分利用多模态特性的问题。

2、为了解决上述技术问题，本专利技术所采用的技术方案如下：

3、本专利技术的第一方面，提供一种基于多模态的对比...

【技术保护点】

1.一种基于多模态的对比解码幻觉减轻方法，其特征在于，所述基于多模态的对比解码幻觉减轻方法包括：

2.根据权利要求1所述的基于多模态的对比解码幻觉减轻方法，其特征在于，所述对所述目标初始数据进行多模态扰动处理，得到目标扰动数据，包括：

3.根据权利要求2所述的基于多模态的对比解码幻觉减轻方法，其特征在于，所述对所述目标初始数据的图像部分进行视觉扰动，得到目标视觉扰动数据，包括：

4.根据权利要求2所述的基于多模态的对比解码幻觉减轻方法，其特征在于，所述对所述目标初始数据的文本部分进行语言扰动，得到目标语言扰动数据，包括：