一种基于多模态大语言模型的图像修复方法、设备及介质技术

技术编号：42845132 阅读：19 留言：0更新日期：2024-09-27 17:15

本说明书实施例公开了一种基于多模态大语言模型的图像修复方法、设备及介质，涉及自然语言处理技术领域，用于解决现有图像修复效率低效果差的问题，方法包括：基于多模态数据对训练集对初始多模态大语言模型进行训练调整，获得多模态大语言模型；基于预置图像编码器提取待修复图像的图像特征，以基于图像特征确定待修复图像所对应的关键词；根据预置描述模板，获得初始图像退化描述并重构获得当前图像退化描述；基于当前图像退化描述与待修复图像的图像语义表示确定待修复图像的修复流程；将修复流程与图像语义表示融合为多模态输入，以输入预置多模态解码器对修复流程获得初步修复结果，并基于初步修复结果反馈调整修复流程获得最佳修复流程。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及自然语言处理，尤其涉及一种基于多模态大语言模型的图像修复方法、设备及介质。

技术介绍

1、随着信息技术的迅猛进步，图像已成为信息传递的核心媒介，其质量与完整性直接关系到信息传达的准确性和有效性。然而，实际应用中，图像常因多种退化因素例如拍摄环境不佳、传输数据丢失、物理媒介老化等而受损，导致文字图像出现模糊、断裂、污损乃至部分缺失等问题，这不仅损害了图像的视觉美感，更严重削弱了信息的可读性和利用价值。因此，图像修复技术成为了图像信息获取过程中的一项重要处理步骤。

2、当前图像修复流程一般为通过智能算法识别图像中的具体降级类型；随后，基于识别结果，自动选择并有序执行相应的修复模型。而该过程中处理顺序对修复质量具有显著影响，要求精确识别降级模式并优化任务执行顺序，以确保最佳修复效果，但是随着处理任务的复杂化，潜在的模型组合与执行顺序数量急剧增加，计算复杂度急剧上升，使得手动选择最优方案变得不切实际。而深度学习技术虽然能够处理多种退化情况，但在处理特定类型退化时，其效果往往不及专为该退化设计的专业模型，使得图像修复的质量和效率较差。

本文档来自技高网...

【技术保护点】

1.一种基于多模态大语言模型的图像修复方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于多模态大语言模型的图像修复方法，其特征在于，以多模态数据对作为训练集对初始多模态大语言模型进行训练，获得符合要求的多模态大语言模型，所述方法还包括：

3.根据权利要求2所述的一种基于多模态大语言模型的图像修复方法，其特征在于，基于所述位置描述词语序列与类型描述词语序列，确定各退化图像样本的文本描述，具体包括：

4.根据权利要求1所述的一种基于多模态大语言模型的图像修复方法，其特征在于，基于预置图像编码器提取待修复图像的图像特征，以根据所述图像特征识别...

【技术特征摘要】

1.一种基于多模态大语言模型的图像修复方法，其特征在于，所述方法包括：

4.根据权利要求1所述的一种基于多模态大语言模型的图像修复方法，其特征在于，基于预置图像编码器提取待修复图像的图像特征，以根据所述图像特征识别所述待修复图像的退化类型与退化位置信息，并基于所述退化类型与预置关键词的关联关系确定所述待修复图像所对应的关键词，具体包括：

5.根据权利要求1所述的一种基于多模态大语言模型的图像修复方法，其特征在于，基于所述退化类型与预置关键词的关联关系确定所述待修复图像所对应的关键词之前，所述方法...

【专利技术属性】
技术研发人员：杨彤，李雪，姜凯，
申请(专利权)人：山东浪潮科学研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人