当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于层次化提示与方向性线索的零样本指称图像分割方法技术

技术编号:43519363 阅读:18 留言:0更新日期:2024-12-03 12:09
本发明专利技术公开了一种基于层次化提示与方向性线索的零样本指称图像分割方法。首先,通过层次化提示掩码生成网络获取输入图像中所有对象实例的掩码;基于方向性线索提取并融合综合视觉特征和焦点视觉特征,得到综合‑焦点视觉特征。然后,利用预训练模型BLIP2生成标题文本和负面表达文本,使用CLIP文本编码器提取文本特征;针对输入文本T,提取并融合综合文本特征和焦点文本特征,得到综合‑焦点文本特征。最后,通过预训练模型CLIP计算图像I与文本T之间的余弦相似度,利用空间整流器将掩码中心作为位置信息,选择匹配分数最高的掩码。本发明专利技术在遮挡和复杂场景中也能生成精确的实例掩码,解决了CLIP对空间位置信息不敏感的问题,表现出卓越性能。

【技术实现步骤摘要】

本专利技术涉及图像分割,具体是涉及一种基于层次化提示与方向性线索的零样本指称图像分割方法


技术介绍

1、指称图像分割(referring image segmentation)旨在精确分割图像中由自然语言描述指定的目标区域。这个过程需要图像和文本之间的精确对齐,以及对视觉和文本元素的全面理解。这在视觉语言领域提出了一个重大挑战。此外,生成精确的掩码注释和相应的自然语言描述既耗时又昂贵,手工注释中的错误可能会影响最终结果。为了解决这些问题,研究人员探索了弱监督方法。然而这种方法性能很差,仍然依赖高质量的训练数据集。相比之下,零样本指称图像分割是一种无需依赖像素级注释,可以准确识别与指称表达式最相关的掩码的方法。这个过程包括掩码的生成和掩码与文本的匹配,这对于生成精确、高质量的掩码和探索视觉文本关系至关重要,使其更具吸引力和研究价值。

2、最近多模态预训练模型在视觉和语言理解方面表现出了令人印象深刻的能力。特别值得注意的是视觉语言模型clip,它擅长捕捉文本和图像之间的全局相似性。它在各种图像级零样本任务(包括图像检索、目标检测和语义分割)中的出本文档来自技高网...

【技术保护点】

1.一种基于层次化提示与方向性线索的零样本指称图像分割方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于层次化提示与方向性线索的零样本指称图像分割方法,其特征在于,所述层次化提示掩码生成网络集成:Recognize Anything Plus Model(RAM++)、Grounding DINO和Segment Anything in High Quality(HQ-SAM)三种高级模型。

3.根据权利要求2所述的一种基于层次化提示与方向性线索的零样本指称图像分割方法,其特征在于,所述步骤S1具体包括以下步骤:

4.根据权利要求3所述...

【技术特征摘要】

1.一种基于层次化提示与方向性线索的零样本指称图像分割方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于层次化提示与方向性线索的零样本指称图像分割方法,其特征在于,所述层次化提示掩码生成网络集成:recognize anything plus model(ram++)、grounding dino和segment anything in high quality(hq-sam)三种高级模型。

3.根据权利要求2所述的一种基于层次化提示与方向性线索的零样本指称图像分割方法,其特征在于,所述步骤s1具体包括以下步骤:

4.根据权利要求3所述的一种基于层次化提示与方向性线索的零样本指称图像分割方法,其特征在于,所述步骤s2具体包括以下步骤:

5.根据权利要求4所述的一种基于层次化提示与方向性线索的零样本指称图像分割方法,其特征在于,所...

【专利技术属性】
技术研发人员:李长龙胡浩基
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1