【技术实现步骤摘要】
本专利技术涉及视觉语言模型领域,更具体地说,涉及一种基于多模态下开放词汇的全视分割方法。
技术介绍
1、全视分割是一项复杂的计算机视觉任务,旨在预测一组不重叠的掩模,每个掩模都有相应的类标签,它结合了语义分割和实例分割的任务,使其成为一个具有挑战性的问题,已经提出了许多方法来解决这个问题,并在全光学质量(pq)方面取得了重大进展,然而,由于标注这种细粒度数据集的成本很高,语义类的数量通常被限制在几十个或几百个,这种限制阻碍了现有方法在现实世界中的进一步应用,因为现实世界中可能的语义类的数量是无限的。
2、根据分组像素的语义,封闭词汇分词可分为语义分词、实例分词和全视分词三种,语义分割解释高级类别语义概念,先前的工作主要将该任务视为逐像素分类问题,并在fcn思想的基础上构建模型。
3、为了克服封闭式词汇分词的局限性,开放式词汇分词被提出,这些方法使用类别名称的文本嵌入,以自然语言表示,作为标签嵌入,而不是从训练数据集中学习它们,通过这样做,模型可以从更广泛的词汇表中对对象进行分类,这提高了它们处理更广泛类别的能力,
...【技术保护点】
1.一种基于多模态下开放词汇的全视分割方法,其特征在于,包括单阶段框架Single_Stage_CLIP:
2.根据权利要求1所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述开放词汇分割,包括:
3.根据权利要求2所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述多尺度变形注意力解码生成,包括:
4.根据权利要求3所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述词汇内分类嵌入,包括:
5.根据权利要求4所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述词汇外分类嵌入,包括:
【技术特征摘要】
1.一种基于多模态下开放词汇的全视分割方法,其特征在于,包括单阶段框架single_stage_clip:
2.根据权利要求1所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述开放词汇分割,包括:
3.根据权利要求2所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述多尺度变形注意力解码生成,包括:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。