零样本实例分割方法、系统、可读存储介质及计算机技术方案

技术编号：40146629 阅读：5 留言：0更新日期：2024-01-24 00:26

本发明专利技术提供一种零样本实例分割方法、系统、可读存储介质及计算机，该方法包括：对数据筛选得到的筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选得到目标图像数据集；分别提取目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取图像特征和文本图特征的嵌入表征，以构建编码器模型；在编码器模型中引入模态交互算法得到目标编码器模型；基于对比损失函数、目标损失函数和目标图像数据集计算出整体损失函数；利用目标编码器模型、跨模态解码器模型以及整体损失函数所构建的双流编解码模型实现图像数据的语义标签检测。本发明专利技术通过输入来检测任意对象，并输出带有检测框的相应像素级别的语义标签。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，特别涉及一种零样本实例分割方法、系统、可读存储介质及计算机。

技术介绍

1、实例分割是计算机视觉领域中的一项关键任务，涉及将图像分割成有意义的区域，其主要目标是将图像中的对象进行像素级别的分割，并为每个对象分配唯一的标识。

2、然而，现有的方法通常依赖昂贵的人工注释作为模型训练的监督信号，这限制了它们对大型、未标记数据集探索的可扩展性和适应性。随着预训练视觉语言模型（例如clip)的成功，尽管提出了许多开放词汇零样本实例分割模型，但整个训练管道仍然需要依赖大规模的文本-图像对来构建训练流程，限制了它们在开放世界情境下的应用以及可适应性。

技术实现思路

1、基于此，本专利技术的目的是提供一种零样本实例分割方法、系统、可读存储介质及计算机，以至少解决上述技术中的不足。

2、本专利技术提出一种零样本实例分割方法，包括：

3、获取若干图像数据集，并对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集；

4、对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集；

5、分别提取所述目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取所述图像特征和所述文本图特征的嵌入表征，以构建对应的编码器模型；

6、在所述编码器模型中引入模态交互算法，以得到对应的目标编码器模型；

7、构建跨模态解码器模型，并基于对比损失函数、目标

8、根据所述目标编码器模型、所述跨模态解码器模型以及所述整体损失函数构建双流编解码模型，并利用所述双流编解码模型实现图像数据的语义标签检测。

9、进一步的，对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集的步骤包括：

10、利用图像处理算法分别检测出各所述图像数据集中所有图像数据的曝光度和模糊度；

11、将所述曝光度不符合曝光度阈值的图像数据和所述模糊度不符合模糊度阈值的图像数据进行筛除，以得到对应的筛选图像数据集。

12、进一步的，对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集的步骤包括：

13、利用图像标签提取器和实例分割模型提取器对所述筛选图像数据集进行伪标签生成，以得到对应的图像标签和文本标签；

14、计算出所述图像标签与所述文本标签的相似度，并根据相似度阈值对所述筛选图像数据集进行标签选择，以得到对应的目标图像数据集。

15、进一步的，分别提取所述目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取所述图像特征和所述文本图特征的嵌入表征，以构建对应的编码器模型的步骤包括：

16、利用预训练的swin-transformer算法提取所述目标图像数据集的图像特征，并利用bert算法提取所述目标图像数据集的文本图特征；

17、利用自注意力机制和多尺度可变注意力机制增强所述图像特征和所述文本图特征的特征表达，以得到对应的编码器模型。

18、本专利技术还提出一种零样本实例分割系统，包括：

19、数据筛选模块，用于获取若干图像数据集，并对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集；

20、数据处理模块，用于对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集；

21、特征提取模块，用于分别提取所述目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取所述图像特征和所述文本图特征的嵌入表征，以构建对应的编码器模型；

22、编码器构建模块，用于在所述编码器模型中引入模态交互算法，以得到对应的目标编码器模型；

23、损失函数计算模块，用于构建跨模态解码器模型，并基于对比损失函数、目标损失函数和所述目标图像数据集计算出对应的整体损失函数；

24、模型构建模块，用于根据所述目标编码器模型、所述跨模态解码器模型以及所述整体损失函数构建双流编解码模型，并利用所述双流编解码模型实现图像数据的语义标签检测。

25、进一步的，所述数据筛选模块包括：

26、图像处理单元，用于利用图像处理算法分别检测出各所述图像数据集中所有图像数据的曝光度和模糊度；

27、数据筛选单元，用于将所述曝光度不符合曝光度阈值的图像数据和所述模糊度不符合模糊度阈值的图像数据进行筛除，以得到对应的筛选图像数据集。

28、进一步的，所述数据处理模块包括：

29、标签处理单元，用于利用图像标签提取器和实例分割模型提取器对所述筛选图像数据集进行伪标签生成，以得到对应的图像标签和文本标签；

30、数据处理单元，用于计算出所述图像标签与所述文本标签的相似度，并根据相似度阈值对所述筛选图像数据集进行标签选择，以得到对应的目标图像数据集。

31、进一步的，所述特征提取模块包括：

32、特征提取单元，用于利用预训练的swin-transformer算法提取所述目标图像数据集的图像特征，并利用bert算法提取所述目标图像数据集的文本图特征；

33、表达增强单元，用于利用自注意力机制和多尺度可变注意力机制增强所述图像特征和所述文本图特征的特征表达，以得到对应的编码器模型。

34、本专利技术还提出一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的零样本实例分割方法。

35、本专利技术还提出一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的零样本实例分割方法。

36、本专利技术当中的零样本实例分割方法、系统、可读存储介质及计算机，通过对图像数据集进行数据预处理，并对预处理得到的数据进行特征提取，并构建编码器模型和解码器模型以及对应的损失函数构建双流编解码模型，利用该双流编解码模型实现图像数据的语义标签检测，通过输入来检测任意对象，并输出带有检测框的相应像素级别的语义标签，整个训练过程无需任何的文本图像标签，借助已有的开放词汇图像标签提取器和实例分割模型提取器，针对任意输入图像获取相应的文本标签和图像像素级别的实例级伪标签，并基于cup模型计算文本和图像伪标签之间的相似度，将大于给定阈值的文本-图像对作为后续groundingseg的训练素材，从而构建丰富的视觉概念知识。

本文档来自技高网...

【技术保护点】

1.一种零样本实例分割方法，其特征在于，包括：

2.根据权利要求1所述的零样本实例分割方法，其特征在于，对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集的步骤包括：

3.根据权利要求1所述的零样本实例分割方法，其特征在于，对所述筛选图像数据集依次进行伪标签生成、相似度计算以及标签筛选，以得到对应的目标图像数据集的步骤包括：

4.根据权利要求1所述的零样本实例分割方法，其特征在于，分别提取所述目标图像数据集的图像特征和文本图特征，并利用自注意力机制和多尺度可变注意力机制提取所述图像特征和所述文本图特征的嵌入表征，以构建对应的编码器模型的步骤包括：

5.一种零样本实例分割系统，其特征在于，包括：

6.根据权利要求5所述的零样本实例分割系统，其特征在于，所述数据筛选模块包括：

7.根据权利要求5所述的零样本实例分割系统，其特征在于，所述数据处理模块包括：

8.根据权利要求5所述的零样本实例分割系统，其特征在于，所述特征提取模块包括：

9.一种可读存储介质，其上存储有计算机程序，其特

10.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的零样本实例分割方法。

...

【技术特征摘要】

1.一种零样本实例分割方法，其特征在于，包括：

2.根据权利要求1所述的零样本实例分割方法，其特征在于，对各所述图像数据集进行数据筛选，以得到对应的筛选图像数据集的步骤包括：

5.一种零样本实例分割系统，...

【专利技术属性】
技术研发人员：王伟，张磊，唐涛，夏迪，张智睿，
申请(专利权)人：江西云眼视界科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人