一种基于聚类过滤的特征检索系统及其应用方法技术方案

技术编号:24456413 阅读:31 留言:0更新日期:2020-06-10 15:40
本发明专利技术属于视频侦查技术领域,具体涉及一种基于聚类过滤的特征检索系统及其应用方法,本发明专利技术通过应用成熟的目标聚类算法,如人员聚类、车辆聚类等,把海量的目标特征库进行特征分组。在进行特征检索时按照聚类的类别进行目标特征过滤,减少不必要的特征内存访问,提高特征检索效率。其次通过目标特征检索的分布式系统,解决海量特征数据加载慢、特征数据不一致以及目标特征重新聚类等一系列问题。

A feature retrieval system based on clustering filtering and its application method

【技术实现步骤摘要】
一种基于聚类过滤的特征检索系统及其应用方法
本专利技术属于视频侦查
,具体涉及一种基于聚类过滤的特征检索系统及其应用方法。
技术介绍
目前,随着深度学习在视频识别领域的广泛应用,视频识别技术取得了很大的进步,比如人脸识别、车牌识别的准确率都高达99%以上,因此政府、公安、金融等行业越来越多地应用人脸识别、行人再识别以及车牌识别等技术,视频识别领域的人工智能市场也越来越活跃。特别地,随着近年来大量平安城市、智慧城市项目的相继落地,也产生了海量的视频结构化特征数据,为后续的特征检索提供了数据基础。其中如何快速地在海量的视频结构化数据中找到视频中出现的相关目标已经成为安防领域急需解决的问题。现有技术方案1:采用开源的ElasticSearch搜索引擎,考虑使用检索条件过滤特征数据后形成目标特征库,再用待搜索的特征跟特征库做1:N检索。主要流程如下:把经过预处理的结构化特征数据存储在ElasticSearchNode,存储信息包括时间戳、摄像机通道,其中ElasticSearchCluster保证Node节点的特征数据均衡;设有ElasticSearch查询节点,负责接收客户端的特征检索请求,并检索请求分发ElasticSearchNode;ElasticSearchNode接收到检索请求后,按照检索条件从服务器磁盘读取特征数据,形成目标特征库。然后使用特征比对算法计算待检索特征与所有目标特征库特征的相似度,并返回TopN给ElasticSearch的查询节点;ElasticSearch查询节点汇总所有Node的TopN结果,并完成相似度的排序和取TopN操作,最后把最终返回给客户端。现有技术方案2:基于内存技术的分布式检索方案,把热点特征数据全部储存在服务器内存中,直接把待搜索的特征跟内存中所有目标特征库进行1:N检索,主要流程如下:设有Node节点,负责启动时从数据库拉取属于本节点的目标特征数据并存储在服务器内存中,形成本节点的目标特征库;Node在运行过程中定时从数据库增量查询新增的目标特征,保存服务器内存中,也定时从内存特征库上删除过期的特征数据;设有Cluster,负责分发检索请求与汇总Node节点的TopN结果;Cluster接收到特征检索请求,把请求分发给所有Node节点。Node节点按照检索条件遍历目标特征库,并输出TopN结果;Cluster节点合并所有Node的TopN结果并完成相似度排序,最终输出TopN给客户端。现有技术方案3:采用GPU技术的检索方案,主要的业务流程和基于内存技术的分布式检索方案一致,不同点是目标特征数据是存储在GPU的显存中,而不是服务器的内存。该方案是利用GPU的强大浮点运行能力和高并发计算能力,能大大提高特征比对的速度,从而提高海量特征数据的检索效率。现有技术方案1的缺点:该方案采用了开源的ES(ElasticSearch)搜索引擎,首先ES没有提供检索后再服务端对TopN结果进行二次处理的接口,需要修改源码。其次,特征检索的目标特征库往往是百万级别以上,若这些特征数据不在系统缓存中,就需要到磁盘读取数据,IO消耗严重,影响特征检索的效率。最后,ES运维比较麻烦,内存ES集群异常恢复需要读取大量特征数据,严重拖慢ES性能。现有技术方案2的缺点:该方案采用了基于内存技术的分布式检索,首先该方案受限制于服务器总线带宽与内存带宽的访问速度。因为该技术方案需要遍历内存中的全部目标特征数据,再根据过滤条件选择目标特征进行特征比对。其次,方案分布式框架较为简单,没有很多好解决特征数据同步、一致性等问题。现有技术方案3的缺点:该方案采用了基于GPU硬件的分布式检索,大大提高了特征检索的速度,但是也增加了硬件成本。一块显存为8G的GPU价格远高于普通服务器内存的价格,并且储存的特征数据有限。例如:当目标特征数据约为700字节时,一块显存为8G的显卡可储存约1000万个特征,按照一天1500万特征数据计算,8G显存的GPU卡可存储0.67天的特征数据,存储1个月的特征数据则需要45张GPU卡。而使用CPU方案时,256G的内存可储存约4G左右的特征数据,储存1个月的特征数据只需要2块256G的内存条即可,硬件成本远低于GPU技术方案。
技术实现思路
针对现有技术中存在的问题,本专利技术设计了一种基于聚类过滤的特征检索系统及其应用方法。可快速识别目标身份,提高工作效率。本专利技术通过以下技术方案实现:一种基于聚类过滤的特征检索系统,其特征在于,包括检索集群,检索集群中设有Master和若干Slave节点,所述Master用于提供特征检索请求的分发与汇总Slave节点返回的TopN结果;所述Slave节点用于提供特征检索服务;所述Slave节点还设有内存数据库,所述内存数据库用于对目标特征数据以聚类ID(ClusterID)进行分组存储;所述目标特征数据包括从备份文件中加载的历史特征数据和从分布式数据库中加载的新增实时特征数据;所述特征检索系统还包括备份服务,用于对分布式数据库的抓拍特征数据进行备份,备份文件存储在网络共享磁盘中,且以天为单位进行抓拍特征数据备份;所述特征检索系统还包括与分布式数据库连接的聚类服务,用于对目标特征数据进行分组,当分布式数据库的抓拍特征数据数量超过阈值,启动重新聚类功能,重新计算目标特征数据的聚类ID。进一步地,所述的特征检索系统至少包括对人脸特征、车辆特征与行人特征的检索。进一步地,所述的Master还用于动态增加或删除Slave节点。进一步地,当新增Slave节点时,所述的Master将其他Slave节点的部分目标特征数据分配给新增的Slave节点。进一步地,当删除Slave节点时,所述的Master将下线的Slave节点的目标特征数据分配其他Slave节点,保证内存数据库中的目标特征数据的完整性。进一步地,所述备份服务完成历史特征数据的重新备份后,通知全部的Slave节点重新加载目标特征数据。一种基于特征检索系统的应用方法,所述应用方法包括内存特征管理方法和目标特征检索方法;其中,所述的内存特征管理方法包括如下步骤:S101:Master根据Slave节点的数量,动态分配Slave需要加载的特征范围;S102:Slave节点从备份文件中加载历史特征数据库,并根据本节点所属范围进行特征过滤,再从分布式数据库中定时增量查询新增的实时特征数据;S103:当有新增Slave节点时,Master根据负载均衡的调度算法,把其他Slave节点的部分目标特征数据分配给新增的Slave节点,全部Slave节点的目标特征数据保持相对均衡;S104:当有Slave节点下线时,Master将该下线的Slave节点的全部目标特征数据分配给其他在线的Slave节点,保持内存数据库中的目标特征数据完整与均衡;S105:备份服务定时在晚上零时对当天的历史特征数据进行备份;S106:聚类服务则根本文档来自技高网
...

【技术保护点】
1.一种基于聚类过滤的特征检索系统,其特征在于,包括检索集群,检索集群中设有Master和若干Slave节点,所述Master用于提供特征检索请求的分发与汇总Slave节点返回的TopN结果;所述Slave节点用于提供特征检索服务;所述Slave节点还设有内存数据库,所述内存数据库用于对目标特征数据以聚类ID(ClusterID)进行分组存储;所述目标特征数据包括从备份文件中加载的历史特征数据和从分布式数据库中加载的新增实时特征数据;/n所述特征检索系统还包括备份服务,用于对分布式数据库的抓拍特征数据进行备份,备份文件存储在网络共享磁盘中,且以天为单位进行抓拍特征数据备份;/n所述特征检索系统还包括与分布式数据库连接的聚类服务,用于对目标特征数据进行分组,当分布式数据库的抓拍特征数据数量超过阈值,启动重新聚类功能,重新计算目标特征数据的聚类ID。/n

【技术特征摘要】
1.一种基于聚类过滤的特征检索系统,其特征在于,包括检索集群,检索集群中设有Master和若干Slave节点,所述Master用于提供特征检索请求的分发与汇总Slave节点返回的TopN结果;所述Slave节点用于提供特征检索服务;所述Slave节点还设有内存数据库,所述内存数据库用于对目标特征数据以聚类ID(ClusterID)进行分组存储;所述目标特征数据包括从备份文件中加载的历史特征数据和从分布式数据库中加载的新增实时特征数据;
所述特征检索系统还包括备份服务,用于对分布式数据库的抓拍特征数据进行备份,备份文件存储在网络共享磁盘中,且以天为单位进行抓拍特征数据备份;
所述特征检索系统还包括与分布式数据库连接的聚类服务,用于对目标特征数据进行分组,当分布式数据库的抓拍特征数据数量超过阈值,启动重新聚类功能,重新计算目标特征数据的聚类ID。


2.根据权利要求1所述的一种基于聚类过滤的特征检索系统,其特征在于,所述的特征检索系统至少包括对人脸特征、车辆特征与行人特征的检索。


3.根据权利要求1所述的一种基于聚类过滤的特征检索系统,其特征在于,所述的Master还用于动态增加或删除Slave节点。


4.根据权利要求3所述的一种基于聚类过滤的特征检索系统,其特征在于,当新增Slave节点时,所述的Master将其他Slave节点的部分目标特征数据分配给新增的Slave节点。


5.根据权利要求4所述的一种基于聚类过滤的特征检索系统,其特征在于,当删除Slave节点时,所述的Master将下线的Slave节点的目标特征数据分配其他Slave节点,保证内存数据库中的目标特征数据的完整性。


6.根据权利要求5所述的一种基于聚类过滤的特征检索系统,其特征在于,所述备份服务完成历史特征数据的重新备份后,通知全部的Slave节点重新加载目标特征数据。


7.一种基于权利要求1所述的特征检索系统的应用方法,其特征在于,所述应用方法包括内存特征管理方法和目标特征检索方法;其中,所述的内存特征管理方法包括如下步骤:
S101:Master根据Slave节点的数量,动态分配Slave需要加载的特征范围;
S102:Slave节点从备份文件中加载历史特征数据库,并根据本节点所属范围进行特征过滤,再从分布式数据库中定时增量查询新增的实时特征数据;
S103:当有...

【专利技术属性】
技术研发人员:关喜记黄松钦董振江江盛欣劳定雄汪刚刘双广
申请(专利权)人:高新兴科技集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1