当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于预训练的开放世界语义分割自动概念补全方法技术

技术编号:43883591 阅读:40 留言:0更新日期:2024-12-31 19:08
本发明专利技术公开了一种基于预训练的开放世界语义分割自动概念补全方法。包括:计算教师模型和学生模型的图像编码特征,通过图像特征蒸馏,将教师模型的知识传递到学生模型;使用预设视觉语言预训练模型,利用大规模图像‑文本数据生成的图像编码特征与教师模型生成的图像编码特征对比相似度,生成子标题,进行自动概念补全,得到补全后的标题;利用补全后标题的编码特征、子标题的编码特征与学生模型生成的图像编码特征对比损失来促进学生模型实现跨模态语义信息对齐;利用训练完成的学生模型对图像进行有效分割和识别。本发明专利技术通过图像特征蒸馏,确保图像特征和文本特征在同一语义空间中有效对齐。使用自动概念补全,确保文本标签的一致性和准确性。

【技术实现步骤摘要】

本专利技术属于计算机视觉、深度学习和自然语言处理领域,更具体地,涉及一种基于预训练的开放世界语义分割自动概念补全方法


技术介绍

1、视觉语言预训练模型(vlp)的成功极大地推动了文本监督开放世界语义分割的发展,这些模型利用图像和文本之间的相关性进行分割。然而,目前的模型主要依赖于基于web的大规模图像-文本数据集,这些数据集的文本描述存在局限性,且特定任务的文本生成器的训练成本很高。此外,将预训练的vlp模型中的开放世界语义知识转移到语义分割任务中面临着补丁分组和跨模态细粒度语义对齐的挑战。

2、作为vlp模型的具体实现之一,现有的基于clip的开放世界语义分割模型通常采用再训练进行补丁自分组groupvit,或者使用掩码生成器对语义对齐模块进行微调以进行语义分类ovseg。具体而言,groupvit通过再训练的方式进行补丁自分组,将图像划分为若干片段,并对每个片段进行特征提取和处理。而ovseg使用掩码生成器对语义对齐模块进行微调,通过生成掩码来实现语义分类。此外,为了改进文本监督信息的质量,以前的方法往往通过引入由llm(如chatgpt本文档来自技高网...

【技术保护点】

1.一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述预设的视觉语言预训练模型为CLIP模型。

3.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述图像特征蒸馏,包括如下步骤:

4.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述教师模型的参数是固定的。

5.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述计算学...

【技术特征摘要】

1.一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述预设的视觉语言预训练模型为clip模型。

3.根据权利要求1所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述图像特征蒸馏,包括如下步骤:

4.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述教师模型的参数是固定的。

5.根据权利要求2所述的一种基于预训练的开放世界语义分割自动概念补全方法,其特征在于,所述计算学生模型的图像编码特征,包括如下步骤:

6.根据权利要求2所述的一种基...

【专利技术属性】
技术研发人员:任鹏真王羽阳梁小丹
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1