基于区域线索改进文本图像预训练模型的零样本语义分割方法技术

技术编号：42481645 阅读：27 留言：0更新日期：2024-08-21 13:02

本发明专利技术提供一种基于区域线索改进文本图像预训练模型的零样本语义分割方法，包括：为预设的文本图像预训练模型构建输入数据；通过预设的区域级别桥梁对输入数据中的图像进行深度特征提取，区分出各个区域的类别特征；基于各个区域的类别特征通过预设的带有恢复损失的恢复解码器对预设的语义分割解码器添加额外约束条件降低过度拟合；基于经过降低过度拟合的图像特征和文本特征进行零样本语义分割。本发明专利技术解决了现有模型进行零样本语义分割泛化性差、像素级分类难以满足实际需求的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语义分割，尤其涉及一种基于区域线索改进文本图像预训练模型的零样本语义分割方法。

技术介绍

1、伴随深度学习技术的迅猛发展，深度神经网络已经在图像理解和分析领域中扮演了核心角色，尤其体现在零样本语义分割这一研究方向上。零样本语义分割旨在让模型能够识别和分割它在训练阶段从未见过的类别，这对模型的泛化能力和理解深度提出了极高的要求。传统的语义分割方法往往只能有效处理训练集中存在的类别，对于新颖或未标记的类别则表现出明显的局限性。

2、随着预训练的视觉-语言模型，如clip模型(采用对比学习的文本-图像预训练模型)的兴起，研究者们开始尝试将这些模型的图像和文本的跨模态理解能力应用于零样本语义分割任务。clip模型通过大规模的图像-文本对预训练，展现出了对图像内容的深刻理解以及强大的零样本分类能力。然而，直接将clip应用于像素级的语义分割任务时，仍然面临着将图像级别的理解转化为精确像素级预测的挑战。

3、此外，现有的将clip模型应用于零样本语义分割任务的方法多采用两阶段流程，其中包括使用类别不可知的掩码生...

【技术保护点】

1.基于区域线索改进文本图像预训练模型的零样本语义分割方法，其特征在于，包括：

2.根据权利要求1所述的基于区域线索改进文本图像预训练模型的零样本语义分割方法，其特征在于，所述为预设的文本图像预训练模型构建输入数据，具体包括：

3.根据权利要求1所述的基于区域线索改进文本图像预训练模型的零样本语义分割方法，其特征在于，所述通过预设的区域级别桥梁对输入数据中的图像进行深度特征提取，区分出各个区域的类别特征，具体包括：

4.根据权利要求1所述的基于区域线索改进文本图像预训练模型的零样本语义分割方法，其特征在于，在训练阶段，所述基于各个区域的类别特征通过预设...

【技术特征摘要】

1.基于区域线索改进文本图像预训练模型的零样本语义分割方法，其特征在于，包括：

4.根据权利要求1所述的基于区域线索改进文本图像预训练模型的零样本语义分割方法，其特征在于，在训练阶段，所述基于各个区域的类别特征通过预设的带有恢复损失的恢复解码器对预设的语义分割解码器添加额外约束条件降低过度拟合，具体包括：

5.根据权利要求4所述的基于区域线索改进文本图像预训练模型的零样本语义分割方法，其特征在于，所述基于各个区域的类别特征区分结果，将收集到的图像全局类别特征和包含区域级别桥梁提取的区域类别特征进行对齐，生成对...

【专利技术属性】
技术研发人员：胡事民，张仪，国孟昊，汪淼，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人