一种图像相似度检索系统及方法技术方案

技术编号:37864695 阅读:11 留言:0更新日期:2023-06-15 20:54
本发明专利技术公开了一种图像相似度检索系统及方法,涉及图像信息检索技术领域,首先将批量图片转换为目标特征向量进行内容特征提取;其次将生成的图片特征向量存储在特征库中,且同步加载到服务器内存中,用于构建索引工厂;然后基于特征库构建索引工厂;最后,实现相似图信息的返回查找,计算目标图片与索引工厂的特征图网络空间距离,快速返回与目标图片相似的TOP_N的图片信息。本发明专利技术从图像检索的根本出发,结合在实际案例中相似图片、视频检索中的实践经验,构建基于内容的图像检索系统所涉及的算法技术方案。该方案切实解决了海量图片检索问题,大大提高了相似度搜索的准确率、以及搜索效率。搜索效率。搜索效率。

【技术实现步骤摘要】
一种图像相似度检索系统及方法


[0001]本专利技术涉及图像信息检索
,尤其是涉及一种图像相似度检索系统及方法。

技术介绍

[0002]随着计算机视觉的迅猛发展,在许多行业领域中,图片业务数量快速增长,已经形成了一定量的存储。针对图片相似问题,在不同行业的业务需求中,存在多种业务目标,比如检测是否是同一张图片,或者识别在同一个角度拍摄的图片,又或者识别内容相似的图片。
[0003]为了提高信息检索效率,面向海量图片的相似度检索方法成为基于内容图片检索中的重要研究问题。在相似检索中,包括两个关键问题,一是相似性度量,二是如何实现快速检索。
[0004]在大型图像数据库上,通常使用基于内容的图像检索技术用于检索在视觉上具相似性的图像。该方法从颜色相似、纹理相似、图像中的物体或场景相似等方面进行图片相似性对比。但对于海量的相似度查询,将查询图像与数据库中所有的图像进行完全比较往往是不可行的,即对于海量图片数据相似性查询效果欠佳。在数据库很大的情况下,这样的查询方式会耗费过多时间。
[0005]目前,基于内容的图像检索是相对成熟的
,但针对海量图片数据相似度检测的实施方案在实际应用中效果欠佳,存在搜索准确率和效率都较差的问题。

技术实现思路

[0006]为了解决目前基于内容的图像检索是相对成熟的
,但针对海量图片数据相似度检测的实施方案在实际应用中效果欠佳,存在搜索准确率和效率都较差的技术问题,本专利技术提供一种图像相似度检索系统及方法。采用如下的技术方案:一种图像相似度检索方法,包括以下步骤:步骤1,图片特征提取,将批量图片转换为目标特征向量进行内容特征提取;步骤2,特征库构建,将生成的图片特征向量存储在特征库中,且同步加载到服务器内存中,用于构建索引工厂;步骤3,索引工厂构建,基于特征库构建索引工厂,采用HNSW32算法进行特征图网络构建;步骤4,返回相似度TOP_N的图片信息,计算目标图片与索引工厂的特征图网络空间距离,快速返回与目标图片相似的TOP_N的图片信息。
[0007]可选的,采用ImageNet分类网络resnet的上层网络技术获取图片特征向量,基于特征内容表现、资源配置和特征存储效率,将图片特征向量维度保存为2048。
[0008]可选的,HNSW32检索算法采用跳表操作,依据点与点之间的距离计算,在高层定位到离目标设定距离的点,缩小检索范围。
[0009]通过上述技术方案,HNSW32检索算法采用跳表操作,利用分层的特性,先从最高层的入口点开始,计算点之间的距离,在每一层寻找离目标点最近的点,作为下一层的入口,直到第0层,到达快速定位到离目标较近的点,缩小检索范围的作用。
[0010]可选的,HNSW32算法在构图时采用启发式搜索选择连接邻居节点,且在搜索过程中,实现维护动态list;HNSW32算法结构将空间中的向量按高位形式组织,每一个节点插入时,节点id自增加1,将数据保存在第0层,然后随机一个层数,从该层开始逐层往下遍历;具体方法是:首先,初始化节点的数据结构。
[0011]然后,若为第一个元素,将该节点作为HNSW的entrypoint,并将该元素的层数作为当前的最大层;若不为第一个元素,则从当前图的最高层逐层往下寻找直至节点的层数+1停止,寻找到离data_point最近的节点,作为下面一层寻找的起始点;最后,从curlevel依次开始往下,每一层寻找离data_point最接近的N个节点构成候选集,再从候选集中选择M个节点与data_point相互连接。
[0012]可选的,每个节点的数据以及与第0层的邻居关系数据均存储在data_level0_memory_,每个节点的数据包括邻居的数量、flag、保留的一个字节、邻居节点的id、data数据和label。
[0013]可选的,通过获取到的索引id信息,关联到图特征向量,计算目标图片与相似度最高的N个图片信息向量的Cosine相似度,用于图片相似度识别结果返回。
[0014]可选的,空间距离越近则表示与目标图片数据相似度越高。
[0015]通过采用上述技术方案,相似图识别检索技术路线主要包含图片特征提取、特征库构建、索引工厂构建、返回相似度TOP_N的图片信息。
[0016]首先,将批量图片转换为目标特征向量进行内容特征提取,通过使用ImageNet分类网络 resnet的上层网络技术获取图片特征向量,基于特征内容表现、资源配置和特征存储效率,将特征向量维度保存为2048。
[0017]然后,将生成的图片特征向量存储在特征库中,并且,同步加载服务器内存中去,用于构建索引工厂。
[0018]接下来,利用HNSW32算法进行特征图网络构建,即构建索引工厂。 HNSW32算法采用类似跳表的思想,在高层跳过大量离目标点较远的点,从而快速定位到离目标较近的点,从而缩小搜索范围。
[0019]HNSW32算法在构图时采用启发式搜索选择连接邻居节点,从而防止出现不连通图的情况。并且,在搜索过程中,实现维护动态list。其中,HNSW算法结构将空间中的向量按高位形式组织,每一个节点插入时,首先将数据保存在第0层。然后,随机一个层数,从该层开始逐层往下遍历,每层都将该节点凭借节点内部id进行插入,并按一定规则连接M个近邻节点,直至第0层。data_level0_memory_存储节点的数据以及第0层的邻居关系,每个节点的数据主要包括邻居的数量、flag、保留的一个字节、邻居节点的id、data数据、以及label。
[0020]最后,实现相似图信息的返回查找。通过运用L2欧几里得距离计算索引工厂的图网络空间距离,快速返回与其相似的TOP_N的图片信息。通过获取到的索引id信息,关联到图特征向量,计算目标图片与相似的TOP_N的图片信息向量的Cosine相似度,用于业务返回,距离越近则表示图片数据相似度越高,该方法切实解决了海量图片检索问题,大大提高
了相似度搜索的准确率、以及搜索效率。
[0021]一种图像相似度检索系统,包括前端业务服务器、网关组件、多个模型服务器,所述网关组件包括请求分发网关和响应接收网关,所述请求分发网关接收前端业务服务器的批量相似图识别请求,并分发到多个模型服务器,所述模型服务器部署有根据一种图像相似度检索方法设计的图像相似度检索模型,多个模型服务器运行图像相似度检索模型,并输出图片相似度识别结果,所述响应接收网关接收模型服务器的相似图识别结果,并返回给前端业务服务器。
[0022]通过采用上述技术方案,在前端业务服务器和模型服务器部分,都进行分布式改造,以应用于高并发、海量图片数据检索、以及实时线上查询等业务需求。
[0023]可选的,所述前端业务服务器基于小波AI平台发布相似图识别的API请求,所述API请求将批量相似图识别请求发送到请求分发网关。
[0024]通过采用上述技术方案,基于小波AI平台,在AI平台进行模型部署,发布相应的API请求,该请求可实现将相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像相似度检索方法,其特征在于,包括以下步骤:步骤1,图片特征提取,将批量图片转换为目标特征向量进行内容特征提取;步骤2,特征库构建,将生成的图片特征向量存储在特征库中,且同步加载到服务器内存中,用于构建索引工厂;步骤3,索引工厂构建,基于特征库构建索引工厂,采用HNSW32算法进行特征图网络构建;步骤4,返回相似度TOP_N的图片信息,计算目标图片与索引工厂的特征图网络空间距离,快速返回与目标图片相似的TOP_N的图片信息。2.根据权利要求1所述的一种图像相似度检索方法,其特征在于:步骤1中,采用ImageNet分类网络resnet的上层网络技术获取图片特征向量,基于特征内容表现、资源配置和特征存储效率,将图片特征向量维度保存为2048。3.根据权利要求2所述的一种图像相似度检索方法,其特征在于:步骤3中,HNSW32检索算法采用跳表操作,依据点与点之间的距离计算,在高层定位到离目标设定距离的点,缩小检索范围。4.根据权利要求3所述的一种图像相似度检索方法,其特征在于:HNSW32算法在构图时采用启发式搜索选择连接邻居节点,且在搜索过程中,实现维护动态list;HNSW32算法结构将空间中的向量按高位形式组织,每一个节点插入时,节点id自增加1,将数据保存在第0层,然后随机一个层数,从该层开始逐层往下遍历,具体方法是:首先,初始化节点的数据结构;然后,若为第一个元素,将该节点作为HNSW的entrypoint,并将该元素的层数作为当前的最大层;若不为第一个元素,则从当前图的最高层逐层往下寻找直至节点的层数+1停止,寻找到离data_point最近的节点,作为下面一层寻找的起始点;最后,从curlevel依次开始往下,每一层寻找离data_point最接近的N个节点构成候选集,再从候选集中选择M个节点与data_point相互连接。5.根据权利要求4所述的一种图像相似度检索方法,其特征在于:每个节点的数据以及与第0层的邻居关系数据均存储在data_level0_memory_,每个节点的数据包括邻居的数量、flag、保留的...

【专利技术属性】
技术研发人员:陈琛李鹏翔任鹏
申请(专利权)人:微企天津信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1