当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于三阶段训练策略的文本-视觉指代分割方法技术

技术编号:41340502 阅读:18 留言:0更新日期:2024-05-20 09:58
本发明专利技术公开了一种基于三阶段训练策略的训练文本‑视觉指代分割的方法,该方法训练得到的模型能够强化SAM模型基于文本的指代分割能力。模型采用了图像文本对和纯物体检测数据,这两种数据类型,相比于专门为文本‑视觉指代分割任务标注的数据,更易于获取,且它们庞大的数据量和多样的来源为模型提供了更广泛的文本和图像特征对齐领域。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和自然语言处理领域,具体涉及一种基于三阶段训练策略的文本-视觉指代分割方法


技术介绍

1、在计算机视觉领域,图像分割是一项核心任务,占有举足轻重的地位。其主要任务是将数字图像细分成多个部分或区域,以便于进一步的图像分析和处理。在各种应用场景中,如医学成像、机器人导航、场景理解和增强现实等,图像分割扮演着关键角色。

2、在传统的图像分割方法中,传统的分割模型通常依赖于明确的视觉提示,如边界框或点标记。然而,这种方法在处理基于文本描述的复杂分割任务时面临挑战,因为这要求模型理解和解析自然语言描述,并将其与图像内容相关联。

3、近期,meta推出的sam(segment anything model)模型在这一领域显示出了显著的潜力,可以处理多种类型的输入提示,它的灵活性和强大的视觉理解能力使其在许多情况下表现出色。尽管如此,sam在处理依赖文本描述的分割任务时存在性能不足之处,特别是当描述变得复杂或含糊时,模型的性能会有所下降。鉴于文本指导的图像分割在多种应用中的重要性,这一局限性成为了一个关键挑战。

<本文档来自技高网...

【技术保护点】

1.一种基于三阶段训练策略的训练文本-视觉指代分割的方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于三阶段训练策略的训练文本-视觉指代分割的方法,其特征在于:所述步骤四中通过三阶段策略进行优化的方式还具有:引入多层自适应训练机制,对于文本编码器中的每一层,根据其在训练过程中的表现动态调整其学习率,具体为:若某一层显示出较好的性能提升,其学习率被相应降低,以避免过拟合;反之,若某层表现不佳,则增加其学习率,促进其更快学习。

3.根据权利要求2所述的基于三阶段训练策略的训练文本-视觉指代分割的方法,其特征在于:所述步骤一中的图像编码器具有特征增强步骤,该...

【技术特征摘要】

1.一种基于三阶段训练策略的训练文本-视觉指代分割的方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于三阶段训练策略的训练文本-视觉指代分割的方法,其特征在于:所述步骤四中通过三阶段策略进行优化的方式还具有:引入多层自适应训练机制,对于文本编码器中的每一层,根据其在训练过程中的表现动态调整其学习率,具体为:若某一层显示出较好的性能提升,其学习率被相应降低,以避免过拟合;反之,若某层表现不佳,则增加其学习率,促进其更快学习。

3.根据权利要求2所述的基于三阶段训练策略的训练文本-视觉指代分割的方法,其特征在于:所述步骤一中的图像编码器具有特征增强步骤,该特征增强步骤具体...

【专利技术属性】
技术研发人员:赵康嘉沈昊展赵天成
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1