The present disclosure provides a method, device, device and computer readable storage medium for retrieving similar data. The method, device, device and computer readable storage medium for retrieving similar data provided by the present disclosure divides the retrieved data into several sub-data, determines the corresponding cluster center combination based on the retrieved sub-data, and determines the distance between the retrieved sub-data and the database sub-data corresponding to the cluster center combination according to the distance between the two sub-data, without calculating the number of retrieval sub-data one by one. The distance between the data and the corresponding sub-data of each database can reduce the amount of computation. Furthermore, based on the combination of clustering centers, the distance between the retrieval sub-data and the database sub-data corresponding to the combination of clustering centers is determined, and the approximate distance obtained is more accurate, so that the determined target data and the retrieval data are closer, and the retrieval accuracy can be improved.
【技术实现步骤摘要】
检索相似数据的方法、装置、设备及计算机可读存储介质
本公开涉及数据检索技术,尤其涉及一种检索相似数据的方法、装置、设备及计算机可读存储介质,属于计算机领域。
技术介绍
谷歌、百度、搜狗、奇虎、微软等公司开发了搜索引擎,可以进行数据搜索,如搜索图片,具体可以对用户上传的图片或者网上图片进行相似搜索。图片的搜索是一个近似最近邻搜索问题(ApproximateNearestNeigborSearch)。最近邻检索就是根据数据的相似性,从数据库中寻找与目标数据最相似的数据,而这种相似性通常会被量化到空间上数据之间的距离,可以认为数据在空间中的距离越近,则数据之间的相似性越高。近似最近邻搜索问题的解决方案主要是哈希算法和积量化算法。哈希算法需根据数据集训练哈希函数,将数据从高维空间降到二值海明空间,再在海明空间进行海明距离(Hammingdistance)的计算,优势是速度快,占用内存小,但是距离比较上不够精确,导致搜索结果不够准确。积量化算法将高维数据划分为多个子空间,在子空间用kmeans算法学习聚类中心,根据聚类中心确定搜索结果。优势是更为精确,但是搜索速度慢。因此,现有技术中搜索相似图片的方案中,搜索速度快的方式精度低,搜索精度高的方式速度慢,导致用户在搜索相似图片时,用户体验较差。
技术实现思路
本公开提供一种检索相似数据的方法、装置、设备及计算机可读存储介质,以解决现有技术中搜索相似图片的方案中,搜索速度快的方式精度低,搜索精度高的方式速度慢,导致用户在搜索相似图片时,用户体验较差。本公开的第一个方面是提供一种检索相似数据的方法,包括:接收检索数据,根据预设 ...
【技术保护点】
1.一种检索相似数据的方法,其特征在于,包括:接收检索数据,根据预设划分规则将所述检索数据划分为M个检索子数据;获取每个所述检索子数据对应的聚类中心组合,其中,所述聚类中心组合是对训练数据进行处理得到的;确定所述检索子数据与每个所述聚类中心组合对应的第一距离,并将所述第一距离确定为所述检索子数据与所述聚类中心组合对应的数据库子数据间的距离;根据所述检索子数据与所述数据库子数据间的距离,确定所述检索数据与所述数据库子数据所属的数据库数据与所述检索数据间的总距离;根据所述总距离在所述数据库数据中确定与所述检索数据相似的目标数据。
【技术特征摘要】
1.一种检索相似数据的方法,其特征在于,包括:接收检索数据,根据预设划分规则将所述检索数据划分为M个检索子数据;获取每个所述检索子数据对应的聚类中心组合,其中,所述聚类中心组合是对训练数据进行处理得到的;确定所述检索子数据与每个所述聚类中心组合对应的第一距离,并将所述第一距离确定为所述检索子数据与所述聚类中心组合对应的数据库子数据间的距离;根据所述检索子数据与所述数据库子数据间的距离,确定所述检索数据与所述数据库子数据所属的数据库数据与所述检索数据间的总距离;根据所述总距离在所述数据库数据中确定与所述检索数据相似的目标数据。2.根据权利要求1所述的方法,其特征在于,所述确定所述检索子数据与每个所述聚类中心组合对应的第一距离,包括:确定所述聚类中心组合的四分点,将所述四分点与所述检索子数据的距离确定为所述第一距离。3.根据权利要求2所述的方法,其特征在于,所述确定所述聚类中心组合的四分点,包括:确定所述聚类中心组包括的第一聚类中心与第二聚类中心的第一中心点;将所述第一聚类中心与所述第一中心点的中心点确定为所述四分点。4.根据权利要求1所述的方法,其特征在于,所述根据所述检索子数据与所述数据库子数据间的距离,确定所述检索数据与所述数据库子数据所属的数据库数据与所述检索数据间的总距离,包括:将属于同一数据库数据的所述数据库子数据与所述检索子数据间的距离进行叠加,得到所述数据库数据与所述检索数据间的总距离。5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:根据所述预设划分规则将每个训练数据划分为M个训练子数据;根据所述预设划分规则对所述训练子数据进行分组得到M个训练子数据集,确定每个所述训练子数据集中的聚类中心,并根据所述聚类中心确定聚类中心组合;根据所述预设划分规则将每个数据库数据划分为M个数据库子数据;根据所述预设划分规则确定每个所述数据库子数据对应的训练子数据集,并在所述训练子数据集中确定与所述数据库子数据对应的所述聚类中心组合。6.根据权利要求5所述的方法,其特征在于,所述根据所述划分规则对所述训练子数据进行分组得到M个训练子数据集,包括:根据所述预设划分规则确定所述训练子数据的第一属性,将...
【专利技术属性】
技术研发人员:安山,黄志标,车广富,陈宇,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。