检索相似数据的方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:20545999 阅读:23 留言:0更新日期:2019-03-09 18:55
本公开提供一种检索相似数据的方法、装置、设备及计算机可读存储介质。本实公开提供的检索相似数据的方法、装置、设备及计算机可读存储介质中,将检索数据数据划分为多个子数据,再基于检索子数据确定对应的聚类中心组合,并根据二者的距离确定检索子数据与聚类中心组合对应的数据库子数据间的距离,无需逐一计算检索子数据与对应的每个数据库子数据间的距离,能够降低计算量。并且,基于聚类中心组合,确定检索子数据与聚类中心组合对应的数据库子数据间的距离,得到的近似距离更加精确,从而使得确定的目标数据和检索数据更相近,能够提高检索精度。

Method, Device, Equipment and Computer Readable Storage Media for Retrieving Similar Data

The present disclosure provides a method, device, device and computer readable storage medium for retrieving similar data. The method, device, device and computer readable storage medium for retrieving similar data provided by the present disclosure divides the retrieved data into several sub-data, determines the corresponding cluster center combination based on the retrieved sub-data, and determines the distance between the retrieved sub-data and the database sub-data corresponding to the cluster center combination according to the distance between the two sub-data, without calculating the number of retrieval sub-data one by one. The distance between the data and the corresponding sub-data of each database can reduce the amount of computation. Furthermore, based on the combination of clustering centers, the distance between the retrieval sub-data and the database sub-data corresponding to the combination of clustering centers is determined, and the approximate distance obtained is more accurate, so that the determined target data and the retrieval data are closer, and the retrieval accuracy can be improved.

【技术实现步骤摘要】
检索相似数据的方法、装置、设备及计算机可读存储介质
本公开涉及数据检索技术,尤其涉及一种检索相似数据的方法、装置、设备及计算机可读存储介质,属于计算机领域。
技术介绍
谷歌、百度、搜狗、奇虎、微软等公司开发了搜索引擎,可以进行数据搜索,如搜索图片,具体可以对用户上传的图片或者网上图片进行相似搜索。图片的搜索是一个近似最近邻搜索问题(ApproximateNearestNeigborSearch)。最近邻检索就是根据数据的相似性,从数据库中寻找与目标数据最相似的数据,而这种相似性通常会被量化到空间上数据之间的距离,可以认为数据在空间中的距离越近,则数据之间的相似性越高。近似最近邻搜索问题的解决方案主要是哈希算法和积量化算法。哈希算法需根据数据集训练哈希函数,将数据从高维空间降到二值海明空间,再在海明空间进行海明距离(Hammingdistance)的计算,优势是速度快,占用内存小,但是距离比较上不够精确,导致搜索结果不够准确。积量化算法将高维数据划分为多个子空间,在子空间用kmeans算法学习聚类中心,根据聚类中心确定搜索结果。优势是更为精确,但是搜索速度慢。因此,现有技术中搜索相似图片的方案中,搜索速度快的方式精度低,搜索精度高的方式速度慢,导致用户在搜索相似图片时,用户体验较差。
技术实现思路
本公开提供一种检索相似数据的方法、装置、设备及计算机可读存储介质,以解决现有技术中搜索相似图片的方案中,搜索速度快的方式精度低,搜索精度高的方式速度慢,导致用户在搜索相似图片时,用户体验较差。本公开的第一个方面是提供一种检索相似数据的方法,包括:接收检索数据,根据预设划分规则将所述检索数据划分为M个检索子数据;获取每个所述检索子数据对应的聚类中心组合,其中,所述聚类中心组合是对训练数据进行处理得到的;确定所述检索子数据与每个所述聚类中心组合对应的第一距离,并将所述第一距离确定为所述检索子数据与所述聚类中心组合对应的数据库子数据间的距离;根据所述检索子数据与所述数据库子数据间的距离,确定所述检索数据与所述数据库子数据所属的数据库数据与所述检索数据间的总距离;根据所述总距离在所述数据库数据中确定与所述检索数据相似的目标数据。本公开的第二个方面是提供一种检索相似数据的装置,包括:接收模块,用于接收检索数据,根据预设划分规则将所述检索数据划分为M个检索子数据;获取模块,用于获取每个所述检索子数据对应的聚类中心组合,其中,所述聚类中心组合是对训练数据进行处理得到的;第一确定模块,用于确定所述检索子数据与每个所述聚类中心组合对应的第一距离,并将所述第一距离确定为所述检索子数据与所述聚类中心组合对应的数据库子数据间的距离;第二确定模块,用于根据所述检索子数据与所述数据库子数据间的距离,确定所述检索数据与所述数据库子数据所属的数据库数据与所述检索数据间的总距离;目标数据确定模块,用于根据所述总距离在所述数据库数据中确定与所述检索数据相似的目标数据。本公开的第三个方面是提供一种检索相似数据的设备,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并配置为由所述处理器执行以实现如上述第一方面所述的检索相似数据的方法。本公开的第四个方面是提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如上述第一方面所述的检索相似数据的方法。本公开提供的检索相似数据的方法、装置、设备及计算机可读存储介质的技术效果是:本公开提供的检索相似数据的方法、装置、设备及计算机可读存储介质,包括:接收检索数据,根据预设划分规则将检索数据划分为M个检索子数据;获取每个检索子数据对应的聚类中心组合,其中,聚类中心组合是对训练数据进行处理得到的;确定检索子数据与每个聚类中心组合对应的第一距离,并将第一距离确定为检索子数据与聚类中心组合对应的数据库子数据间的距离;根据检索子数据与数据库子数据间的距离,确定检索数据与数据库子数据所属的数据库数据与检索数据间的总距离;根据总距离在数据库数据中确定与检索数据相似的目标数据。本实公开提供的检索相似数据的方法、装置、设备及计算机可读存储介质中,将检索数据划分为多个子数据,再基于检索子数据确定对应的聚类中心组合,并根据二者的距离确定检索子数据与聚类中心组合对应的数据库子数据间的距离,无需计算检索子数据与对应的每个数据库子数据间的距离,能够降低计算量。并且,基于聚类中心组合,确定检索子数据与聚类中心组合对应的数据库子数据间的距离,得到的近似距离更加精确,从而使得确定的目标数据和检索数据更相近,能够提高检索精度。附图说明图1A为本专利技术一示例性实施例示出的应用场景图;图1为本专利技术一示例性实施例示出的检索相似数据的方法的流程图;图2为本专利技术另一示例性实施例示出的检索相似数据的方法的流程图;图2A为本专利技术一示例性实施例示出的四分点示意图;图3为本专利技术一示例性实施例示出的检索相似数据的装置的结构图;图4为本专利技术另一示例性实施例示出的检索相似数据的装置的结构图;图5为本专利技术一示例性实施例示出的检索相似数据的设备的结构图。具体实施方式图1A为本专利技术一示例性实施例示出的应用场景图。如图1A所示,很多互联网平台都有数据检索的功能,用户可以在其中输入数据,平台前端,也可以是客户端可以将数据转发至后端服务器,由后端服务器对输入的数据进行识别处理,并确定与其相近的目标数据,再将目标数据反馈至平台前端,从而向用户反馈检索结果。例如,用户可以输入图片,网络平台可以向用户反馈搜索结果。在这个过程中,后台服务器对输入数据的处理过程决定了向用户反馈的检索结果的准确性。若检索精度差,则反馈的检索结果就会不准确;若检索速度慢,则反馈检索结果的时间就会较长,都会造成用户的体验差的问题。本实施例提供的方案,基于积量化算法,通过优化确定检索数据与聚类中心之间距离的方式,能够实现快速且准确的数据检索效果。图1为本专利技术一示例性实施例示出的检索相似数据的方法的流程图。如图1所示,本实施例提供的检索相似数据的方法包括:步骤101,接收检索数据,根据预设划分规则将检索数据划分为M个检索子数据。本实施例提供的方法可以应用在图片检索平台的后台服务器中,由处理图片检索的服务器执行本实施例提供的方法。图片检索平台还可以具有前端,如应用软件的客户端,用户可以在前端进行操作,输入需要检索的图片,前端可以将该图片发送至服务器后端,从而使服务器根据接收的检索数据找到相似图像。其中,服务器在接收到检索数据后,可以对该数据进行处理,得到检索子数据。具体的,服务器中可以存储有预设的划分规则,并基于该规则对检索数据进行划分,得到M个检索子数据。例如,一个检索数据包括128个浮点位(float),可以将其分为4个检索子数据,每个检索子数据为32位,再基于每个检索子数据进行检索,能够降低计算量。可以理解为,对划分后的检索子数据进行组合,能够得到接收的检索数据。进一步的,服务器还可以将接收的数据进行矢量化,生成查询矢量q。再对查询矢量进行分割,得到检索子数据。实际应用时,M的值可以根据需求进行设置,本实施例不对此进行限制。步骤102,获取每个检索子数据对应的聚类中心组合。其中,聚类中心组合是对训练数据进行处理得到的。可以预先对训练数据进行训练,本文档来自技高网...

【技术保护点】
1.一种检索相似数据的方法,其特征在于,包括:接收检索数据,根据预设划分规则将所述检索数据划分为M个检索子数据;获取每个所述检索子数据对应的聚类中心组合,其中,所述聚类中心组合是对训练数据进行处理得到的;确定所述检索子数据与每个所述聚类中心组合对应的第一距离,并将所述第一距离确定为所述检索子数据与所述聚类中心组合对应的数据库子数据间的距离;根据所述检索子数据与所述数据库子数据间的距离,确定所述检索数据与所述数据库子数据所属的数据库数据与所述检索数据间的总距离;根据所述总距离在所述数据库数据中确定与所述检索数据相似的目标数据。

【技术特征摘要】
1.一种检索相似数据的方法,其特征在于,包括:接收检索数据,根据预设划分规则将所述检索数据划分为M个检索子数据;获取每个所述检索子数据对应的聚类中心组合,其中,所述聚类中心组合是对训练数据进行处理得到的;确定所述检索子数据与每个所述聚类中心组合对应的第一距离,并将所述第一距离确定为所述检索子数据与所述聚类中心组合对应的数据库子数据间的距离;根据所述检索子数据与所述数据库子数据间的距离,确定所述检索数据与所述数据库子数据所属的数据库数据与所述检索数据间的总距离;根据所述总距离在所述数据库数据中确定与所述检索数据相似的目标数据。2.根据权利要求1所述的方法,其特征在于,所述确定所述检索子数据与每个所述聚类中心组合对应的第一距离,包括:确定所述聚类中心组合的四分点,将所述四分点与所述检索子数据的距离确定为所述第一距离。3.根据权利要求2所述的方法,其特征在于,所述确定所述聚类中心组合的四分点,包括:确定所述聚类中心组包括的第一聚类中心与第二聚类中心的第一中心点;将所述第一聚类中心与所述第一中心点的中心点确定为所述四分点。4.根据权利要求1所述的方法,其特征在于,所述根据所述检索子数据与所述数据库子数据间的距离,确定所述检索数据与所述数据库子数据所属的数据库数据与所述检索数据间的总距离,包括:将属于同一数据库数据的所述数据库子数据与所述检索子数据间的距离进行叠加,得到所述数据库数据与所述检索数据间的总距离。5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:根据所述预设划分规则将每个训练数据划分为M个训练子数据;根据所述预设划分规则对所述训练子数据进行分组得到M个训练子数据集,确定每个所述训练子数据集中的聚类中心,并根据所述聚类中心确定聚类中心组合;根据所述预设划分规则将每个数据库数据划分为M个数据库子数据;根据所述预设划分规则确定每个所述数据库子数据对应的训练子数据集,并在所述训练子数据集中确定与所述数据库子数据对应的所述聚类中心组合。6.根据权利要求5所述的方法,其特征在于,所述根据所述划分规则对所述训练子数据进行分组得到M个训练子数据集,包括:根据所述预设划分规则确定所述训练子数据的第一属性,将...

【专利技术属性】
技术研发人员:安山黄志标车广富陈宇
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1