基于SAM补全的双解码器集成指示图像分割算法及装置制造方法及图纸

技术编号:44907384 阅读:40 留言:0更新日期:2025-04-08 18:52
本发明专利技术公开了一种基于SAM补全的双解码器集成指示图像分割算法及装置,本发明专利技术引入了一种新颖的双分支解码器框架,结合了SAM(Segment Anything Model)用于RIS。该框架结合了一个MLP解码器和一个KAN解码器,并加入了多尺度特征融合模块,增强了模型识别图像中细微细节的能力。通过集成学习策略,框架的鲁棒性得到了进一步加强,整合了MLP和KAN解码器分支的洞见。更重要的是,本发明专利技术利用了分割目标边缘坐标和边界框坐标信息作为SAM模型的输入提示。这一策略利用了SAM的零样本学习能力,来完善和优化分割结果。本发明专利技术基于广泛认可的RefCOCO、RefCOCO+和RefCOCOg数据集的实验结果证实了这种方法的有效性。结果不仅在分割性能上达到了最先进的水平,而且通过消融研究得到了支持,这些研究突出了每个组件对整体性能改进的贡献。

【技术实现步骤摘要】

本专利技术涉及一种基于sam补全的双解码器集成指示图像分割算法及装置。


技术介绍

1、在当今数字化时代,人机交互的需求日益增长,推动了跨模态融合技术在视觉领域的快速发展。图像分割作为视觉领域的关键技术之一,其重要性不断上升。特别是指示图像分割任务(referring image segmentation,ris),作为一项基础且充满挑战的多模态任务,已经吸引了广泛的研究关注。ris技术通过融合视觉-语言理解和实例分割技术,使得系统能够根据自然语言描述来识别并分割图像中的特定对象或区域。这些描述可能包括目标的动作、类别、颜色和位置等信息,为多种应用场景,如人机交互和交互式图像分割,提供了巨大的应用潜力。

2、现有的图像分割技术主要集中于预定义类别的分割任务,而ris任务则将分割的概念泛化到了由自然语言描述定义的任何对象。这种泛化不仅极大地扩展了分割任务的应用范围,也显著提升了任务的复杂度。在现有技术中,实现ris任务需要系统对图像内容和语言语义都有深刻的理解,这在技术上是一项极具挑战性的目标。

3、指示图像分割任务的核心目标是利用自然本文档来自技高网...

【技术保护点】

1.一种基于SAM补全的双解码器集成指示图像分割算法,其特征在于,所述算法对应的框架包括三个模块:(1)多模态信息编码器模块、(2)双分支解码器模块以及(3)基于SAM的分割补全模块。

2.根据权利要求1所述的基于SAM补全的双解码器集成指示图像分割算法,其特征在于,多模态信息编码器模块包含:基于SwinTransformer的图像编码器、基于Bert的文本编码器以及基于Transformer的多模态信息编码器;

3.根据权利要求1所述的基于SAM补全的双解码器集成指示图像分割算法,其特征在于,双分支解码器模块包含:基于MLP的多模态解码器、基于KAN的多模态解码...

【技术特征摘要】

1.一种基于sam补全的双解码器集成指示图像分割算法,其特征在于,所述算法对应的框架包括三个模块:(1)多模态信息编码器模块、(2)双分支解码器模块以及(3)基于sam的分割补全模块。

2.根据权利要求1所述的基于sam补全的双解码器集成指示图像分割算法,其特征在于,多模态信息编码器模块包含:基于swintransformer的图像编码器、基于bert的文本编码器以及基于transformer的多模态信息编码器;

3.根据权利要求1所述的基于sam补全的双解码器...

【专利技术属性】
技术研发人员:柳文龙秦姣华陈浩源
申请(专利权)人:中南林业科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1