基于多模态大模型的图像检索方法、系统及电子设备技术方案

技术编号:42814419 阅读:31 留言:0更新日期:2024-09-24 20:55
本发明专利技术涉及人工智能领域,具体提供一种基于多模态大模型的图像检索方法、系统及电子设备,旨在解决或至少部分地解决由于图像特征提取时需要多目标提取特征,以及忽略背景信息而造成的存储和检索的复杂性,及降低检索准确性等技术问题。本发明专利技术方案为:通过多模态大模型对图像进行目标及背景特征提取;基于待比对特征与特征向量底库中的图像特征进行比对,输出比对结果。上述方案避免了多目标的提取,降低了存储和检索的复杂性,及提高了检索准确性。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,具体提供一种基于多模态大模型的图像检索方法、系统及电子设备


技术介绍

1、近年来随着各行各业的高度信息化以及大数据时代的到来,在智慧安防领域视频监控软硬件和抓拍识别技术的飞速发展,每天相机抓拍的流水按亿量级增长,也给大数据下的人、车检索应用带来了挑战。在现有的抓拍设备中,为了高效的提取图片中的人、车等信息,需要部署好几套独立功能的引擎来分别提取抓拍图片的信息,例如:专用的人脸识别检测引擎,车辆识别检测引擎等。这给部署和运维成本带来了很大的成本浪费,同时也给人、车图片的相似性检索带来了巨大挑战。如何充分利用视觉大模型并解决上面提到的运维、检索问题,因此提出一种基于视觉理解大模型的多模态特征检索系统。

2、在智能安防领域,现有的图片比对系统主要是对图片中的人物、车进行检测并提取特征,利用特征向量的距离来实现图片的相似性比对检索得到相似性最高的topn图片结果。由于需要分别对人脸、人体、车、非车提取特征,因此可能一张抓拍照会提取多份特征,且特征之间相互独立,导致特征存储量大且冗余,同时也增加了图片检索系统的复杂性和准确性。

3、另一方面,对抓拍照进行目标检测和提取特征,由于不同的检测目标需要不同的算法,例如采用yolovx对图片中车辆目标检测,采用retinaface对图片中的人脸目标检测,采用dlib对图片中的人脸获取关键点,采用采用resnet提取人脸特征信息;而随着抓拍照中的目标越多,图片分辨率越高,检测和提取特征耗时越长。

4、同时,上述的检测和特征提取只关注图片中的目标信息(人脸,人体,车,非车),而忽略了抓拍照的背景信息,例如树,房子,路等信息,这些背景信息也具有很好的参考价值。

5、相应地,本领域需要一种基于多模态大模型的图像检索方案来解决上述技术问题。


技术实现思路

1、为了克服上述缺陷,提出了本专利技术,以提供解决或至少部分地解决由于图像特征提取时需要多目标提取特征,以及忽略背景信息而造成的存储和检索的复杂性,及降低检索准确性等技术问题。

2、在第一方面,本专利技术提供一种基于多模态大模型的图像检索方法,包括:

3、通过预训练的多模态大模型对图像进行特征提取,并基于提取的图像特征建立特征向量底库;其中,所述图像特征包括图像中的目标特征、图像中的背景特征;

4、通过所述多模态大模型,获取待比对多模态检索信息对应的待比对多模态检索特征;其中,所述待比对多模态检索信息包括以下至少之一:文本信息、图像信息、音频信息、视频信息;所述待比对多模态检索特征包括待比对多模态检索信息中的目标特征、待比对多模态检索信息中的背景特征;

5、基于所述待比对多模态检索特征,与所述特征向量底库中的图像特征进行比对,并输出比对结果。

6、在一个实施例中,所述目标特征包括以下至少之一:人特征、动物特征、物体特征;所述背景特征包括以下至少之一:树、房子、道路、河流、花草、大海。

7、在一个实施例中,所述图像特征的类型,包括以下至少之一:float类型、int8类型;若所述图像特征的类型为float类型时,特征维度为768。

8、在一个实施例中,比对算法包括以下至少之一:欧氏距离l2,内积ip,汉明距离hamming。

9、在一个实施例中,通过预训练的多模态大模型对图像进行特征提取,把提取的图像特征采用向量数据库存储,并构建向量索引,建立特征向量底库。

10、在一个实施例中,向量索引算法包括以下至少之一:flat、ivf_flat、ivf_pq、hnsw、annoy。

11、在一个实施例中,所述多模态大模型的预训练方式包括以下至少之一:掩码重建、对比学习。

12、在第二方面,本专利技术提供一种基于多模态大模型的图像检索系统,包括:建立模块、获取模块、比对模块;

13、其中,

14、所述建立模块,用于通过预训练的多模态大模型对图像进行特征提取,并基于提取的图像特征建立特征向量底库;其中,所述图像特征包括图像中的目标特征、图像中的背景特征;

15、所述获取模块,用于通过所述多模态大模型,获取待比对多模态检索信息对应的待比对多模态检索特征;其中,所述待比对多模态检索信息包括以下至少之一:文本信息、图像信息、音频信息、视频信息;

16、所述比对模块,用于基于所述待比对多模态检索特征,与所述特征向量底库中的图像特征进行比对,并输出比对结果。

17、在第三方面,提供一种电子设备,包括处理器和存储器,其中所述存储器中存储有程序,所述处理器执行所述程序时实现上述方法的技术方案中任一项技术方案所述的基于多模态大模型的图像检索方法。

18、在第四方面,提供一种可读存储介质,存储有程序,所述程序被执行时实现上述方法的技术方案中任一项技术方案所述的基于多模态大模型的图像检索方法。

19、本专利技术上述一个或多个技术方案,至少具有如下一种或多种

20、有益效果:

21、本专利技术的技术方案:通过预训练的多模态大模型对图像进行特征提取,并基于提取的图像特征建立特征向量底库;其中,所述图像特征包括图像中的目标特征、图像中的背景特征;

22、通过所述多模态大模型,获取待比对多模态检索信息对应的待比对多模态检索特征;其中,所述待比对多模态检索信息包括以下至少之一:文本信息、图像信息、音频信息、视频信息;所述待比对多模态检索特征包括待比对多模态检索信息中的目标特征、待比对多模态检索信息中的背景特征;

23、基于所述待比对多模态检索特征,与所述特征向量底库中的图像特征进行比对,并输出比对结果。

24、上述方案,多模态大模型对图像进行统一的特征提取,避免了多目标的提取,同时,图像特征提取时,不仅提取图像中的目标特征,还提取图像中的背景特征,降低了存储和检索的复杂性,及提高了检索准确性。

25、上述方案,还支持文搜图、音频搜图、视频搜图等,检索范围和匹配度更广。

本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的图像检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述目标特征包括以下至少之一:人特征、动物特征、物体特征;所述背景特征包括以下至少之一:树、房子、道路、河流、花草、大海。

3.根据权利要求1所述的方法,其特征在于,所述图像特征的类型,包括以下至少之一:float类型、int8类型;若所述图像特征的类型为float类型时,特征维度为768。

4.根据权利要求1所述的方法,其特征在于,比对算法包括以下至少之一:欧氏距离L2,内积IP,汉明距离Hamming。

5.根据权利要求1所述的方法,其特征在于,通过预训练的多模态大模型对图像进行特征提取,把提取的图像特征采用向量数据库存储,并构建向量索引,建立特征向量底库。

6.根据权利要求5所述的方法,其特征在于,向量索引算法包括以下至少之一:FLAT、IVF_FLAT、IVF_PQ、HNSW、ANNOY。

7.根据权利要求1所述的方法,其特征在于,所述多模态大模型的预训练方式包括以下至少之一:掩码重建、对比学习。p>

8.一种基于多模态大模型的图像检索系统,其特征在于,包括:建立模块、获取模块、比对模块;

9.一种电子设备,包括处理器和存储器,其中所述存储器中存储有程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法。

10.一种可读存储介质,存储有程序,其特征在于,所述程序被执行时实现权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于多模态大模型的图像检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述目标特征包括以下至少之一:人特征、动物特征、物体特征;所述背景特征包括以下至少之一:树、房子、道路、河流、花草、大海。

3.根据权利要求1所述的方法,其特征在于,所述图像特征的类型,包括以下至少之一:float类型、int8类型;若所述图像特征的类型为float类型时,特征维度为768。

4.根据权利要求1所述的方法,其特征在于,比对算法包括以下至少之一:欧氏距离l2,内积ip,汉明距离hamming。

5.根据权利要求1所述的方法,其特征在于,通过预训练的多模态大模型对图像进行特征提取,把提取的图像特征采用向量数据库存储...

【专利技术属性】
技术研发人员:田兴发罗丹果
申请(专利权)人:重庆中科云从科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1