同时实现目标检测和语义分割的方法、系统、设备及介质技术方案

技术编号：41131975 阅读：2 留言：0更新日期：2024-04-30 18:01

本申请提供一种同时实现目标检测和语义分割的方法、系统、设备及介质，所述方法包括获取第一特征序列、第二特征序列与输入图像；基于所述输入图像获取图像特征序列；基于所述图像特征序列、所述第一特征序列与所述第二特征序列获取目标检测输出序列和语义分割输出序列；基于所述目标检测输出序列获取目标检测结果；基于所述语义分割输出序列获取语义分割结果。本申请能够快速实现基于同一输入图像，同时进行目标检测和语义分割的任务，能够捕捉图像中不同区域之间的关系，有效降低了同时处理目标检测任务和语义分割任务的难度，精确率较高。同时，本申请需要的计算资源较少，降低了运算量的要求。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于计算机视觉，涉及一种同时实现目标检测和语义分割的方法、系统、设备及介质。

技术介绍

1、语义分割和目标检测是计算机视觉领域中的两个重要任务，它们各具特点和应用场景。语义分割能够提供像素级别的分类和边界信息，适用于对图像进行精细分割和分类；目标检测能够快速地检测物体并对其进行跟踪和处理，适用于需要物体位置和形状信息的场景。

2、目前，为了完成目标检测和语义分割，多使用卷积神经网络分别对两个任务建立独立的模型。由于深度神经网络的运算量很大，如果对每个任务分别建立独立模型的话，将会带来巨大的算力要求。此外，现有技术还基于目前主流的卷积神经网络(例如vgg和resnet等)构建用于提取特征的基础网络，而后在基础网络中预先选定的特征提取层后部通过额外附加的卷积层进一步增加卷积图的语义深度并调整其维度，使之匹配后面连接的检测器的输入要求，最终由检测器实现对目标的分类和定位等功能。但是，这一方法需要对训练的要求的要求极高，需要强监督模式人工标定分割真值，运算复杂度显著增加，并且精确度也有待提升。

技术实现思路

1、本申请提供一种同时实现目标检测和语义分割的方法、系统、设备及介质，用于快速、精准地同时处理目标检测任务和语义分割任务。

2、第一方面，本申请提供一种同时实现目标检测和语义分割的方法，所述方法包括：获取第一特征序列、第二特征序列与输入图像；基于所述输入图像获取图像特征序列；基于所述图像特征序列、所述第一特征序列与所述第二特征序列获取目标检测输出序列和语义

3、在第一方面的一种实现方式中，在获取输入图像之前，所述方法还包括对vit模型进行训练；以及基于训练好的vit模型获取所述第一特征序列和所述第二特征序列。

4、在第一方面的一种实现方式中，基于所述输入图像获取图像特征序列包括：基于所述输入图像获取图像块；基于所述图像块进行词嵌入编码以获取词向量基于所述图像块进行位置编码以获取位置信息；基于所述词向量和所述位置信息获取所述图像特征序列。

5、在第一方面的一种实现方式中，基于所述图像特征序列、所述第一特征序列与所述第二特征序列获取目标检测输出序列和语义分割输出序列包括：将所述图像特征序列、所述第一特征序列与所述第二特征序列拼接后作为大语言模型的输入；基于所述大语言模型对所述图像特征序列、所述第一特征序列与所述第二特征序列进行信息交互融合，以输出结果序列；基于所述结果序列获取所述目标检测输出序列和所述语义分割输出序列。

6、在第一方面的一种实现方式中，基于所述目标检测输出序列获取目标检测结果包括：将所述目标检测输出序列输入类别检测模块以获取类别检测结果；所述类别检测模块包括多层感知机和softmax层。

7、在第一方面的一种实现方式中，基于所述目标检测输出序列获取目标检测结果还包括：将所述目标检测输出序列输入位置检测模块以获取位置检测结果；所述位置检测模块包括多层感知机和sigmoid层。

8、在第一方面的一种实现方式中，基于所述语义分割输出序列获取语义分割结果包括：将所述语义分割输出序列输入语义分割模块以获取语义分割结果；所述语义分割模块包括解码模块和sigmoid层。

9、第二方面，本申请提供一种同时实现目标检测和语义分割的系统，包括第一获取模块，用于获取第一特征序列、第二特征序列与输入图像；第二获取模块，用于基于所述输入图像获取图像特征序列；第三获取模块，用于基于所述图像特征序列、所述第一特征序列与所述第二特征序列获取目标检测输出序列和语义分割输出序列；第四获取模块，用于基于所述目标检测输出序列获取目标检测结果；第五获取模块，用于基于所述语义分割输出序列获取语义分割结果。

10、第三方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请第一方面所述的同时实现目标检测和语义分割的方法。

11、第四方面，本申请提供一种电子设备，包括：存储器，被配置为存储计算机程序；以及处理器，与所述存储器通信相连，所述处理器被配置为调用所述计算机程序以执行本申请第一方面所述的同时实现目标检测和语义分割的方法。

12、本申请所述的一种同时实现目标检测和语义分割的方法、系统、设备及介质，具有以下有益效果：利用大语言模型的强大建模能力，快速实现基于同一输入图像，同时进行目标检测和语义分割的任务，能够捕捉图像中不同区域之间的关系，有效降低了同时处理目标检测任务和语义分割任务的难度，精确率较高。同时，本申请需要的计算资源较少，降低了运算量的要求。

本文档来自技高网...

【技术保护点】

1.一种同时实现目标检测和语义分割的方法，其特征在于，包括：

2.根据权利要求1所述的同时实现目标检测和语义分割的方法，其特征在于，在获取输入图像之前，所述方法还包括对VIT模型进行训练；以及

3.根据权利要求1所述的同时实现目标检测和语义分割的方法，其特征在于，基于所述输入图像获取图像特征序列包括：

4.根据权利要求1所述的同时实现目标检测和语义分割的方法，其特征在于，基于所述图像特征序列、所述第一特征序列与所述第二特征序列获取目标检测输出序列和语义分割输出序列包括：

5.根据权利要求1所述的同时实现目标检测和语义分割的方法，其特征在于，基于所述目标检测输出序列获取目标检测结果包括：

6.根据权利要求5所述的同时实现目标检测和语义分割的方法，其特征在于，基于所述目标检测输出序列获取目标检测结果还包括：

7.根据权利要求1所述的同时实现目标检测和语义分割的方法，其特征在于，基于所述语义分割输出序列获取语义分割结果包括：

8.一种同时实现目标检测和语义分割的系统，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

...

【技术特征摘要】

1.一种同时实现目标检测和语义分割的方法，其特征在于，包括：

2.根据权利要求1所述的同时实现目标检测和语义分割的方法，其特征在于，在获取输入图像之前，所述方法还包括对vit模型进行训练；以及

3.根据权利要求1所述的同时实现目标检测和语义分割的方法，其特征在于，基于所述输入图像获取图像特征序列包括：

5.根据权利要求1所述的同时实现目标检测和语义分割的方法，其特征在于，基于所述目...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：上海蜜度数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人