【技术实现步骤摘要】
本专利技术属于计算机视觉、深度学习和自然语言处理领域,更具体地,涉及一种基于预训练的开放世界语义分割自动概念补全方法。
技术介绍
1、视觉语言预训练模型(vlp)的成功极大地推动了文本监督开放世界语义分割的发展,这些模型利用图像和文本之间的相关性进行分割。然而,目前的模型主要依赖于基于web的大规模图像-文本数据集,这些数据集的文本描述存在局限性,且特定任务的文本生成器的训练成本很高。此外,将预训练的vlp模型中的开放世界语义知识转移到语义分割任务中面临着补丁分组和跨模态细粒度语义对齐的挑战。
2、作为vlp模型的具体实现之一,现有的基于clip的开放世界语义分割模型通常采用再训练进行补丁自分组groupvit,或者使用掩码生成器对语义对齐模块进行微调以进行语义分类ovseg。具体而言,groupvit通过再训练的方式进行补丁自分组,将图像划分为若干片段,并对每个片段进行特征提取和处理。而ovseg使用掩码生成器对语义对齐模块进行微调,通过生成掩码来实现语义分类。此外,为了改进文本监督信息的质量,以前的方法往往通过引入由ll
...【技术保护点】
1.一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述预设的视觉语言预训练模型为CLIP模型。
3.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述图像特征蒸馏,包括如下步骤:
4.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述教师模型的参数是固定的。
5.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法,其
...【技术特征摘要】
1.一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述预设的视觉语言预训练模型为clip模型。
3.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述图像特征蒸馏,包括如下步骤:
4.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述教师模型的参数是固定的。
5.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述计算学生模型的图像编码特征,包括如下步骤:
6.根据权利要求2所述的一种基...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。