一种基于多模态下开放词汇的全视分割方法技术

技术编号:40830302 阅读:32 留言:0更新日期:2024-04-01 14:53
本发明专利技术公开了一种基于多模态下开放词汇的全视分割方法,属于视觉语言模型领域,包括单阶段框架,在不同的环境中从开放的类别集中分割和识别对象,是利用多模态模型(如CLIP)在共享嵌入空间中提供图像——文本特征,能有效地弥合了封闭词汇表和开放词汇表识别之间的差距,创造性使用共享的冻结卷积CLIP骨干将所有内容构建到单阶段框架中,这不仅大大简化了当前的两级管道,而且还显著地产生了更好的准确性与成本权衡。

【技术实现步骤摘要】

本专利技术涉及视觉语言模型领域,更具体地说,涉及一种基于多模态下开放词汇的全视分割方法


技术介绍

1、全视分割是一项复杂的计算机视觉任务,旨在预测一组不重叠的掩模,每个掩模都有相应的类标签,它结合了语义分割和实例分割的任务,使其成为一个具有挑战性的问题,已经提出了许多方法来解决这个问题,并在全光学质量(pq)方面取得了重大进展,然而,由于标注这种细粒度数据集的成本很高,语义类的数量通常被限制在几十个或几百个,这种限制阻碍了现有方法在现实世界中的进一步应用,因为现实世界中可能的语义类的数量是无限的。

2、根据分组像素的语义,封闭词汇分词可分为语义分词、实例分词和全视分词三种,语义分割解释高级类别语义概念,先前的工作主要将该任务视为逐像素分类问题,并在fcn思想的基础上构建模型。

3、为了克服封闭式词汇分词的局限性,开放式词汇分词被提出,这些方法使用类别名称的文本嵌入,以自然语言表示,作为标签嵌入,而不是从训练数据集中学习它们,通过这样做,模型可以从更广泛的词汇表中对对象进行分类,这提高了它们处理更广泛类别的能力,为了确保提供有意义的本文档来自技高网...

【技术保护点】

1.一种基于多模态下开放词汇的全视分割方法,其特征在于,包括单阶段框架Single_Stage_CLIP:

2.根据权利要求1所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述开放词汇分割,包括:

3.根据权利要求2所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述多尺度变形注意力解码生成,包括:

4.根据权利要求3所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述词汇内分类嵌入,包括:

5.根据权利要求4所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述词汇外分类嵌入,包括:

>6.根据权利要求5...

【技术特征摘要】

1.一种基于多模态下开放词汇的全视分割方法,其特征在于,包括单阶段框架single_stage_clip:

2.根据权利要求1所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述开放词汇分割,包括:

3.根据权利要求2所述的基于多模态下开放词汇的全视分割方法,其特征在于,所述多尺度变形注意力解码生成,包括:

【专利技术属性】
技术研发人员:邓立国邓淇文
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1