垃圾检测方法、系统、电子设备及存储介质技术方案

技术编号：40152040 阅读：7 留言：0更新日期：2024-01-26 23:11

本申请实施例提供了一种垃圾检测方法、系统、电子设备及存储介质，属于人工智能技术领域。该方法通过目标检测模型初步识别待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像，再将多个垃圾局部图像和待检测图像输入到视觉编码器中得到每一张垃圾局部图像的多尺度图像特征，根据垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征，进一步将垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型对垃圾局部图像进行针对实际场景和环境与垃圾的关联理解推理，实现垃圾检测，在不需要大量训练小模型的情况下，本申请的垃圾检测方法适用性高，垃圾识别准确度高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种垃圾检测方法、系统、电子设备及存储介质。

技术介绍

1、基于监控视频的垃圾检测技术广泛应用于不同业务场景中，例如，城市指令检测、违规垃圾监测、智能垃圾桶管理以及垃圾处理设施布局优化等场景。由于城市场景的多样性，如街道、巷道等，模型常常难以在不同环境中准确理解垃圾可能出现的位置。与此同时，垃圾种类的多样性也增加了挑战，因为某些垃圾可能与常见物体具有相似性，例如纸张类垃圾与广告物品的相似之处，这种情况导致误报频繁发生。

2、目前，垃圾检测方法通过采用卷积网络检测等基于神经网络的图像处理和识别的目标检测模型，这种方法在场景和垃圾种类的泛化方面存在不足，只能检测特定场景以及特定类别的垃圾，对于其他场景或者种类的垃圾检测，模型鲁棒性差，检测精度低。为了适应大量的垃圾检测业务场景和垃圾种类，需要采用大量不同种类、不同场景的垃圾检测样本来构建训练集，以进行目标检测模型的训练和优化，导致训练时间长、部署过程冗长，计算负担重。

技术实现思路

1、本申请实施例的主要目的在于提出一种垃圾检测方法、系统、电子设备及存储介质，旨在提高不同业务场景下垃圾识别模型的鲁棒性，提高垃圾识别的准确性。

2、为实现上述目的，本申请实施例的一方面提出了一种垃圾检测方法，包括以下步骤：

3、获取待检测图像；

4、通过目标检测模型识别所述待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像；

5、将多个所述垃圾局部图像和所述待

6、根据所述垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征；

7、将所述垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型，得到垃圾局部图像的检测结果。

8、在一些实施例中，所述通过目标检测模型识别所述待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像包括以下步骤：

9、将所述待检测图像输入目标检测模型进行垃圾识别，得到多个目标检测框和每一个目标检测框所包围的画面块的垃圾检测特征；

10、根据预设的外扩像素规格分别对多个目标检测框进行外扩，得到多个外扩检测框；

11、根据所述外扩检测框对所述待检测图像进行裁剪，得到垃圾局部图像。

12、在一些实施例中，所述将所述待检测图像输入目标检测模型进行垃圾识别，得到多个目标检测框和每一个目标检测框所包围的画面块的垃圾检测特征包括以下步骤：

13、将所述待检测图像输入目标检测模型进行垃圾识别，得到多个初始识别结果，其中，所述初始识别结果包括识别出的备选物体属于垃圾的检测得分和对应的初始检测框；

14、从多个初始识别结果中选择检测得分大于得分阈值的初始识别结果，并将选取的初始识别结果对应的初始检测框作为目标检测框。

15、在一些实施例中，所述将多个所述垃圾局部图像和所述待检测图像输入到视觉编码器中，以对每一张垃圾局部图像进行多尺度特征提取，得到每一张垃圾局部图像的多尺度图像特征包括以下步骤：

16、将所述垃圾局部图像分别映射到多个不同维度的特征提取层，得到多个不同维度的垃圾局部特征；

17、将所述垃圾局部图像映射到基于所述待检测图像的全局特征提取层，得到垃圾全局特征；

18、将所述垃圾全局特征和多个所述垃圾局部特征形成的特征集合输入多层跨注意力交互编码层，得到特征集合中每一个元素对应的图像特征；

19、选择对应垃圾全局特征的图像特征作为所述垃圾局部图像的多尺度图像特征。

20、在一些实施例中，所述根据所述垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征包括以下步骤：

21、将所述检测特征输入检测适配器进行第一维度适配处理，得到第一视觉信息；

22、将所述多尺度图像特征输入图像适配器进行第二维度适配处理，得到第二视觉信息；

23、将所述第一视觉信息和所述第二视觉信息输入全连接层进行信息融合，得到视觉特征。

24、在一些实施例中，所述视觉推理大语言模型包括多个依次连接的语言模型中间层，两个语言模型中间层之间连接有视觉语言语义信息融合层；

25、所述语言模型中间层用于对基于垃圾识别文本指令集的语言推理信息进行编码，得到语义特征；

26、所述视觉语言语义信息融合层用于将上一语言模型中间层输出的语义特征和视觉特征进行融合并基于垃圾识别文本指令集进行图像推理，得到语言推理信息。

27、在一些实施例中，所述将所述垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型，得到垃圾局部图像的检测结果包括以下步骤：

28、将垃圾识别文本指令集输入第一个语言模型中间层，并将第一个语言模型中间层输出的语义特征和所述视觉特征输入第一个视觉语言语义信息融合层得到对应的语言推理信息；

29、将第一个视觉语言语义信息融合层输出的语言推理信息输入第二个语言模型中间层，并将第二个语言模型中间层输出的语义特征输入第二个视觉语言语义信息融合层对应的语言推理信息，依次类推，直到最后一个语言模型中间层输出语义特征，并将最后一个语言模型中间层输出的语义特征作为垃圾局部图像的检测结果，所述检测结果包括垃圾局部图像存在垃圾的概率。

30、为实现上述目的，本申请实施例的另一方面提出了一种垃圾检测系统，包括：

31、第一模块，用于获取待检测图像；

32、第二模块，用于通过目标检测模型识别所述待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像；

33、第三模块，用于将多个所述垃圾局部图像和所述待检测图像输入到视觉编码器中，以对每一张垃圾局部图像进行多尺度特征提取，得到每一张垃圾局部图像的多尺度图像特征；

34、第四模块，用于根据所述垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征；

35、第五模块，用于将所述垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型，得到垃圾局部图像的检测结果。

36、为实现上述目的，本申请实施例的另一方面提出了一种电子设备，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现前面所述的垃圾检测方法。

37、为实现上述目的，本申请实施例的另一方面提出了一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前面所述的垃圾检测方法。

38、本申请提出的垃圾检测方法、系统、电子设备及存储介质，其通过目标检测模型初步识别待检测图像中的垃圾，得到多本文档来自技高网...

【技术保护点】

1.一种垃圾检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的垃圾检测方法，其特征在于，所述通过目标检测模型识别所述待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像包括以下步骤：

3.根据权利要求2所述的垃圾检测方法，其特征在于，所述将所述待检测图像输入目标检测模型进行垃圾识别，得到多个目标检测框和每一个目标检测框所包围的画面块的垃圾检测特征包括以下步骤：

4.根据权利要求1所述的垃圾检测方法，其特征在于，所述将多个所述垃圾局部图像和所述待检测图像输入到视觉编码器中，以对每一张垃圾局部图像进行多尺度特征提取，得到每一张垃圾局部图像的多尺度图像特征包括以下步骤：

5.根据权利要求1所述的垃圾检测方法，其特征在于，所述根据所述垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征包括以下步骤：

6.根据权利要求1所述的垃圾检测方法，其特征在于，所述视觉推理大语言模型包括多个依次连接的语言模型中间层，两个语言模型中间层之间连接有视觉语言语义信息融合层；

7.根据权利要求6所述的垃圾检测方法，

8.一种垃圾检测系统，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至7任一项所述的垃圾检测方法的步骤。

10.一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的垃圾检测方法的步骤。

...

【技术特征摘要】

1.一种垃圾检测方法，其特征在于，包括以下步骤：

5.根据权利要求1所述的垃圾检测方法，其特征在于，所述根据所述垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征包括以下步骤：

6.根据权利要求1所述的垃圾检测方法，其特征在于，所述...

【专利技术属性】
技术研发人员：方瀚，冯泽润，臧祥浩，班超，孙皓，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人