具有语言引导的自监督语义分割的系统和方法技术方案

技术编号:43320712 阅读:25 留言:0更新日期:2024-11-15 20:20
一种计算机实现的系统和方法涉及语言引导的自监督语义分割。通过对源图像执行数据增强来生成经修改的图像。机器学习模型基于经修改的图像生成第一像素嵌入。使用第一像素嵌入生成第一片段嵌入。预训练的视觉语言模型基于源图像生成第二像素嵌入。在对第二像素嵌入执行数据增强之后,通过将来自第一像素嵌入的片段轮廓数据应用于第二像素嵌入来生成第二片段嵌入。通过将第一片段嵌入与第二片段嵌入进行比较来生成嵌入一致损失数据。生成包括嵌入一致损失数据的组合损失数据。基于组合损失数据更新机器学习模型的参数。

【技术实现步骤摘要】

本公开总体上涉及计算机视觉,并且更特别地涉及数字图像处理、视觉分析和语义分割。


技术介绍

1、一般而言,语义分割涉及在像素级将输入图像划分成语义上有意义的区域,并为每个区域分配语义类别标签。语义分割的最新进展在很大程度上依赖于逐像素的人工注释。然而,获取逐像素注释是极其耗费人力和成本的。例如,已经知晓逐像素注释花费1.5小时来对一个图像标记。此外,人工注释通常限于预定义的语义类别,这可能将学习到的模型识别能力限于这些预定义的语义类别。


技术实现思路

1、以下是在下面详细描述的特定实施例的概述。呈现所描述的方面仅仅是为了向读者提供这些特定实施例的简要概述,并且这些方面的描述不意图限制本公开的范围。实际上,本公开可以涵盖可能未在下面明确阐述的各个方面。

2、根据至少一个方面,一种计算机实现的方法涉及语言引导的自监督语义分割。该方法包括接收源图像。该方法包括通过对源图像执行数据增强来生成经修改的图像。经修改的图像是源图像的修改版本。该方法包括经由机器学习模型基于经修改的图像生成第一像素嵌入。该方法包括使本文档来自技高网...

【技术保护点】

1.一种用于语言引导的自监督语义分割的计算机实现的方法,所述方法包括:

2.根据权利要求1所述的计算机实现的方法,进一步包括:

3.根据权利要求1所述的计算机实现的方法,进一步包括:

4.根据权利要求3所述的计算机实现的方法,其中:

5.根据权利要求1所述的计算机实现的方法,其中:

6.根据权利要求1所述的计算机实现的方法,其中每个第一片段嵌入是通过计算与同一视觉上连贯的区域相关联的第一像素嵌入的聚类的平均来生成的。

7.根据权利要求1所述的计算机实现的方法,进一步包括:

8.一种用于语言引导的自监督语义...

【技术特征摘要】

1.一种用于语言引导的自监督语义分割的计算机实现的方法,所述方法包括:

2.根据权利要求1所述的计算机实现的方法,进一步包括:

3.根据权利要求1所述的计算机实现的方法,进一步包括:

4.根据权利要求3所述的计算机实现的方法,其中:

5.根据权利要求1所述的计算机实现的方法,其中:

6.根据权利要求1所述的计算机实现的方法,其中每个第一片段嵌入是通过计算与同一视觉上连贯的区域相关联的第一像素嵌入的聚类的平均来生成的。

7.根据权利要求1所述的计算机实现的方法,进一步包括:

8.一种用于语言引导的自监督语义分割的系统,所述系统包括:

9.根据权利要求8所述的系统,其中所述方法进一步包括:

10.根据权利要求8所述的系统,其中所述方法进一步包括:

11.根据权利要求10所述的系统,其中:

12.根据权利要求8所述的...

【专利技术属性】
技术研发人员:何文彬S·贾莫纳苟良任骝
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1