基于涂鸦提示编码大模型的交互式自动化标注系统及方法技术方案

技术编号：41144144 阅读：3 留言：0更新日期：2024-04-30 18:13

本发明专利技术涉及一种基于涂鸦提示编码大模型的交互式自动化标注系统及方法，属于计算机视觉领域。该系统包括图像编码器、涂鸦提示编码器和掩膜解码器。该方法基于该系统包括如下步骤：将原图像输入到图像编码器，获取图像特征向量；将原图像和二值标签图像输入到涂鸦提示编码器，通过模拟模块和采集模块进行涂鸦曲线模拟及采样以获得点集；将点集输入到涂鸦提示编码器的编码模块中进行编码以输出位置编码向量；将图像特征向量与位置编码向量送入到掩膜解码器中输出预测掩码；使用模型输出的预测掩码与二值化标签图像完成监督训练，更新涂鸦提示编码器的编码模块和掩膜解码器的参数，得到涂鸦提示编码大模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，涉及一种基于涂鸦提示编码大模型的交互式自动化标注系统及方法。

技术介绍

1、作为计算机视觉领域的重要任务之一，图像分割旨在根据一定特征将图像划分成若干个互不相交的区域，使得这些特征在同一区域表现出一致性或相似性。在工业界，图像分割广泛应用于医学影像分析(病变组织探测及边界提取)、自动驾驶(可导航表面及行人检测)、遥感图像处理(农业检测、地物分类)和安防监控等领域。然而，现有的多数分割模型通常是针对特定目标场景量身定制的，这限制了它们进一步推广到不同领域分割任务的能力。

2、如今在计算视觉领域,基于transformer的视觉大模型的出现使得研究人员能够在统一的框架中解决多类下游分割任务。在这些视觉大模型中“分割一切模型”segmentanything model(sam)尤为突出，这是一个在1100万张图像和10亿张掩码训练下构建的图像分割基础大模型，并在多类新的图像领域和视觉任务展现出了出色的零样本迁移能力。需要说明的是，sam是在提示分割任务上完成预训练，即给定分割提示后模型返回有效的分割掩码。它的架构包含三个模块，分别是基于transformer结构的图像编码器，负责提取输入图像的特征；提示编码器，将用户指定的提示信息进行编码；掩膜解码器，对两个编码器输出的信息作融合后给出分割掩码。

3、由于其卓越的泛化能力，业界开始研究如何在工业领域部署sam。然而在医学领域，由于医学影像存在前景背景相似度极高、特定组织边界轮廓模糊等问题，多方研究已经表明sam无法直接用于完成医学影

4、针对更新sam的所有参数消耗大量时间和计算成本的问题，目前有两种主流的解决思路，一种是只微调掩膜解码器，如j ma，b wang等人对掩膜解码器作监督训练以实现模型在特定医学图像数据集上的快速适应；第二种是使用轻量级网络结构代替主干网络的更新，如kzhang,d liu等人提出的基于低秩矩阵的训练策略，以及j wu，r fu等人提出的在编码器和解码器中加入适配器的方法。但以上方法往往忽略了sam的提示编码器，因为这部分结构相对简单且固定。然而sam的提示编码器目前只支持点和框这两类简单的视觉提示，对于目标区轮廓复杂形状不规则的情况这两类方式往往无法指明用户的分割意图，因此需要一种包含更多位置信息的视觉提示方式；同时sam的提示编码器采用固定三角函数式的绝对位置编码来生成一个点或两个点的位置信息向量，这种方式能够较为直接地为解码端提供单个点的位置信息，但是对于出现更多点的情况，这种方式无法获取每个点之间的相对位置信息，从而导致一部分位置信息的缺失，因为需要一种编码方式获取各点之间的相对位置信息。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种基于涂鸦提示编码大模型的交互式自动化标注系统及方法。

2、为达到上述目的，本专利技术提供如下技术方案：

3、本专利技术提出了一种基于涂鸦提示编码大模型的交互式自动化标注系统，其包括：图像编码器、涂鸦提示编码器和掩膜解码器，其中，涂鸦提示编码器包括模拟模块、采样模块、编码模块；图像编码器负责提取图像特征；涂鸦提示编码器进行涂鸦曲线的生成及后续的编码；掩膜解码器将图像编码器和涂鸦提示编码器的输出结果进行分割后输出分割结果。

4、本专利技术还提出了一种基于涂鸦提示编码大模型的交互式自动化标注方法，该方法包括如下步骤：

5、s1、将原图像输入到图像编码器，获取图像特征向量；

6、s2、将原图像和二值标签图像输入到涂鸦提示编码器，在模拟模块中对二值标签图像提取形态学骨架后添加噪声干扰，再使用贝塞尔曲线拟合散点生成模拟用户标注意图的涂鸦曲线，最后送入到采样模块使用特定采样算法对涂鸦曲线采样获得点集；

7、s3、将采样模块输出的点集送入到涂鸦提示编码器的编码模块中，分别完成基于固定三角函数式的绝对位置编码和基于注意力机制的相对位置编码，两类编码向量相加后作为位置编码向量输出；

8、s4、将图像特征向量与位置编码向量送入到掩膜解码器中输出预测的掩码；

9、s5、使用模型输出的预测掩码与二值化标签图像完成监督训练，更新涂鸦提示编码器的编码模块和掩膜解码器的参数，得到涂鸦提示编码大模型。

10、用户向完成参数更新后的模型输入新的未标注图像，同时对目标分割区域提供任意形式的涂鸦标注，之后掩膜解码器自动输出分割掩码。

11、进一步，在步骤s1的图像特征提取过程中，将待微调数据集中的原图像输入到sam原始的图像编码器中，将尺寸为c×h×w图像经过具有窗口注意力机制和残差连接的transformer模块后输出尺度为1×256×64×64的图像特征向量。

12、进一步，在步骤s2的涂鸦曲线模拟及采样过程中，包括如下详细步骤：

13、s21、在训练阶段，使用hilditch算法对原图像对应的二值标签图像提取骨架以获得目标区域的形态学特征，生成保留图像形态学特征且像素宽度为1的骨架像素集合；

14、s22、遍历骨架像素集合中的每个像素，以该像素为中心在一个4x4的窗口中内随机添加3～6个噪声点，再对噪声点和骨架像素进行采样得到数量为n的散点；

15、s23、使用贝塞尔曲线对数量为n的散点进行拟合，再使用伯恩斯坦多项式将贝塞尔曲线定义在点集上；具体过程为：

16、首先计算其对应的伯恩斯坦多项式

17、

18、给定控制点c1,c2,...,cn，贝塞尔曲线上任意一点定义为：

19、

20、其中，n表示散点个数；i是非零正整数，取值范围是[1,n]；t表示步长；

21、s24、将任意一段涂鸦曲线视为一组像素点集p，首先获取点集p的中心点pm，以及中心点左侧的点集合pl和中心点右侧的点集合pr；如果涂鸦像素总数量n低于设置的采样点数s，则从pl和pr各随机采样[(n-1)/2]个点，[x]表示不大于x的最大整数，分别得到子点集pl'和pr'，并由{pl',pm,pr',ppad}构成长度为s的点集pe，其中ppad为填充点集；否则从pl和pr各随机采样(s-1)/2个点，分别得到子点集pl'和pr'，并直接由{pl',pm,pr'}构成点集pe；

22、s25、将点集pe在原图像尺寸下的点坐标数值转换为图像特征向量尺寸下的数值，确保在解码端信息融合时两类编码器输出向量位置信息的对齐。

23、进一步，在步骤s3的涂鸦编码过程中，对采样点坐标集合pe完成涂鸦编码，并行完成绝对位置编码和相对位置编码，包括以下步骤：

24、s31、对于绝对位置编码，首先根据pe获取点属性向量，选用固定三角函数式的编码方式进行编码，使本文档来自技高网...

【技术保护点】

1.一种基于涂鸦提示编码大模型的交互式自动化标注系统，其特征在于：其包括：图像编码器、涂鸦提示编码器和掩膜解码器，其中，所述涂鸦提示编码器包括模拟模块、采样模块、编码模块；

2.一种基于涂鸦提示编码大模型的交互式自动化标注方法，其特征在于：所述方法包括以下步骤：

3.根据权利要求2所述的基于涂鸦提示编码大模型的交互式自动化标注方法，其特征在于：在步骤S1的图像特征提取过程中，将待微调数据集中的原图像输入到SAM原始的图像编码器中，将尺寸为C×H×W图像经过具有窗口注意力机制和残差连接的Transformer模块后输出尺度为1×256×64×64的图像特征向量。

4.根据权利要求3所述的基于涂鸦提示编码大模型的交互式自动化标注方法，其特征在于：在步骤S2的涂鸦曲线模拟及采样过程中，包括以下步骤：

5.根据权利要求4所述的基于涂鸦提示编码大模型的交互式自动化标注方法，其特征在于：在步骤S3的涂鸦编码过程中，对采样点坐标集合PE完成涂鸦编码，并行完成绝对位置编码和相对位置编码，包括以下步骤：

6.根据权利要求5所述的基于涂鸦提

7.根据权利要求6所述的基于涂鸦提示编码大模型的交互式自动化标注方法，其特征在于：在步骤S5的监督训练完成微调过程中，对于S4输出的预测掩码，使用DiceLoss+CELoss的损失函数组合完成有监督训练，在监督训练过程中，仅更新涂鸦提示编码器的编码模块和掩膜解码器的所有参数，即微调涂鸦提示编码器和掩膜解码器，冻结图像编码器。

...

【技术特征摘要】

2.一种基于涂鸦提示编码大模型的交互式自动化标注方法，其特征在于：所述方法包括以下步骤：

3.根据权利要求2所述的基于涂鸦提示编码大模型的交互式自动化标注方法，其特征在于：在步骤s1的图像特征提取过程中，将待微调数据集中的原图像输入到sam原始的图像编码器中，将尺寸为c×h×w图像经过具有窗口注意力机制和残差连接的transformer模块后输出尺度为1×256×64×64的图像特征向量。

4.根据权利要求3所述的基于涂鸦提示编码大模型的交互式自动化标注方法，其特征在于：在步骤s2的涂鸦曲线模拟及采样过程中，包括以下步骤：

5.根据权利要求4所述的基于涂鸦提...

【专利技术属性】
技术研发人员：周喜川，胡昱然，聂晶，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人