数据检索、数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:33136428 阅读:24 留言:0更新日期:2022-04-22 13:43
本申请公开了一种数据检索、数据处理方法、装置、设备及存储介质,所述数据检索方法包括获取待检索特征向量;确定预设检索数据集中的多个质心特征向量;分别计算多个质心特征向量与待检索特征向量的相似度;当任一质心特征向量与所述待检索特征向量的相似度满足预设条件时,基于预设质心部署映射关系,确定与待检索特征向量的相似度满足预设条件的质心特征向量对应的分片服务器;向对应的分片服务器发送数据检索指令,数据检索指令携带有待检索特征向量,以使对应的分片服务器基于待检索特征向量进行数据检索,得到至少一个检索结果特征向量。利用本申请提供的技术方案能够提升数据检索的吞吐率,减少资源浪费,提升大数据检索时的效率。索时的效率。索时的效率。

【技术实现步骤摘要】
数据检索、数据处理方法、装置、设备及存储介质


[0001]本申请涉及大数据处理
,具体涉及一种数据检索、数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着人工智能和大数据的快速发展,现如今数据检索在日常生活中的应用越来越广泛,例如购物网站的商品检索和疑犯追踪等,可以根据给定的对象快速检索出类似或相关的对象。
[0003]在实际的检索系统中,由于被检索数据集往往包括海量数据,数据集过于庞大,单台服务器的CPU和内存都难以承受这样的运算量。因此现有技术通过将整个被检索数据集随机划分为若干子集并分别将这些子集部署到不同的服务器,当需要进行检索时,再将待检索目标广播到这些服务器分别进行检索,从而减少单个服务器的检索压力,但这种方式存在计算资源浪费,且检索系统吞吐率较低,因此,需要提供更加有效的方案。

技术实现思路

[0004]为了解决现有技术的问题,本申请提供了一种数据检索、数据处理方法、装置、设备及存储介质。所述技术方案如下:
[0005]本申请一方面提供了一种数据检索方法,所述方法包括:
[0006]获取待检索特征向量;
[0007]确定预设检索数据集中的多个质心特征向量;
[0008]分别计算所述多个质心特征向量与所述待检索特征向量的相似度;
[0009]当任一质心特征向量与所述待检索特征向量的相似度满足预设条件时,基于预设质心部署映射关系,确定与所述待检索特征向量的相似度满足预设条件的质心特征向量对应的分片服务器;
[0010]向所述对应的分片服务器发送数据检索指令,所述数据检索指令携带有所述待检索特征向量,以使所述对应的分片服务器基于所述待检索特征向量进行数据检索,得到至少一个检索结果特征向量。
[0011]本申请另一方面提供了一种数据处理方法,所述方法包括:
[0012]获取原始数据集,所述原始数据集包括多个样本特征向量;
[0013]对所述多个样本特征向量进行聚类处理,得到预设检索数据集,所述预设检索数据集包括多个第一特征向量集合,且每个第一特征向量集合包括对应的质心特征向量;
[0014]对所述预设检索数据集进行分片划分,得到多个第二特征向量集合,其中,所述第二特征向量集合包括至少一个所述第一特征向量集合对应的质心特征向量;
[0015]将所述第二特征向量集合发送到对应的分片服务器进行存储;
[0016]建立所述质心特征向量与对应的分片服务器之间的映射关系,并将所述映射关系作为预设质心部署映射关系。
[0017]本申请另一方面提供了一种数据检索装置,所述装置包括:
[0018]待检索特征向量获取模块,用于获取待检索特征向量;
[0019]质心特征向量确定模块,用于确定预设检索数据集中的多个质心特征向量,其中,所述预设检索数据集是预先基于多个样本特征向量进行聚类处理生成的;
[0020]分片服务器确定模块,用于当任一质心特征向量与所述待检索特征向量的相似度满足预设条件时,基于预设质心部署映射关系,确定与所述待检索特征向量的相似度满足预设条件的质心特征向量对应的分片服务器;
[0021]检索指令发送模块,用于向所述对应的分片服务器发送数据检索指令,所述数据检索指令携带有所述待检索特征向量,以使所述对应的分片服务器基于所述待检索特征向量进行数据检索,得到至少一个检索结果特征向量。
[0022]本申请另一方面提供了一种数据处理装置,所述装置包括:
[0023]原始数据集获取模块,用于获取原始数据集,所述原始数据集包括多个样本特征向量;
[0024]聚类模块,用于对所述多个样本特征向量进行聚类处理,得到预设检索数据集,所述预设检索数据集包括多个第一特征向量集合,且每个第一特征向量集合包括对应的质心特征向量;
[0025]数据分片模块,用于对所述预设检索数据集进行分片划分,得到多个第二特征向量集合,其中,所述第二特征向量集合包括至少一个所述第一特征向量集合对应的质心特征向量;
[0026]数据发送存储模块,用于将所述第二特征向量集合发送到对应的分片服务器进行存储;
[0027]映射关系建立模块,用于建立所述质心特征向量与对应的分片服务器之间的映射关系,并将所述映射关系作为预设质心部署映射关系。
[0028]本申请另一方面提供了一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现所述数据检索方法。
[0029]本申请另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现所述数据检索方法。
[0030]本申请提供的数据检索、数据处理方法、装置、设备及存储介质,具有如下技术效果:
[0031]本申请通过确定预设检索数据集中的多个质心特征向量,其中,该预设检索数据集是预先基于多个样本特征向量进行聚类处理生成的;分别计算上述多个质心特征向量与该待检索特征向量的相似度,且当任一质心特征向量与所述待检索特征向量的相似度满足预设条件时,基于预设质心部署映射关系,确定与所述待检索特征向量的相似度满足预设条件的质心特征向量对应的分片服务器,向对应的分片服务器发送数据检索指令,以使该对应的分片服务器基于所述待检索特征向量进行数据检索,得到至少一个检索结果特征向量,相当于仅需向特定的分片服务器发送数据检索指令进行检索,有利于提升数据检索的吞吐率,减少资源浪费,提升大数据检索时的效率及可靠性。通过获取包括多个样本特征向
量的原始数据集,并对上述多个样本特征向量进行聚类处理,得到预设检索数据集,且该预设检索数据集包括多个第一特征向量集合,每个第一特征向量集合包括对应的质心特征向量,有利于将特征类似的样本特征向量聚集在一起,进而有利于后续检索时快速准确地确定出与待检索特征向量对应的检索结果特征向量的大致位置,降低计算量,减少资源浪费;然后,对该预设检索数据集进行分片划分,得到多个第二特征向量集合,其中,上述第二特征向量集合包括至少一个上述第一特征向量集合对应的质心特征向量;接着,将上述第二特征向量集合发送到对应的分片服务器进行存储,有利于将特征相似的样本特征向量划分到同一分片,进而在实际检索时仅需将待检索特征向量发送到对应的分片服务器进行检索,大大提升检索的吞吐率;最后,建立上述质心特征向量与对应的分片服务器之间的映射关系,并将该映射关系作为预设质心部署映射关系,从而检索时可快速准确地根据预设质心部署映射关系确定需要对应的分片服务器进行检索,提升数据检索的效率和吞吐率。
[0032]本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0033]为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检索方法,其特征在于,所述方法包括:获取待检索特征向量;确定预设检索数据集中的多个质心特征向量;分别计算所述多个质心特征向量与所述待检索特征向量的相似度;当任一质心特征向量与所述待检索特征向量的相似度满足预设条件时,基于预设质心部署映射关系,确定与所述待检索特征向量的相似度满足预设条件的质心特征向量对应的分片服务器;向所述对应的分片服务器发送数据检索指令,所述数据检索指令携带有所述待检索特征向量,以使所述对应的分片服务器基于所述待检索特征向量进行数据检索,得到至少一个检索结果特征向量。2.根据权利要求1所述的方法,其特征在于,在获取待检索特征向量之前,所述方法还包括:获取原始数据集,所述原始数据集包括多个样本特征向量;对所述多个样本特征向量进行聚类处理,得到预设检索数据集,所述预设检索数据集包括多个第一特征向量集合,且每个第一特征向量集合包括对应的质心特征向量;对所述预设检索数据集进行分片划分,得到多个第二特征向量集合,其中,所述第二特征向量集合包括至少一个所述第一特征向量集合对应的质心特征向量;将所述第二特征向量集合发送到对应的分片服务器进行存储;建立所述质心特征向量与对应的分片服务器之间的映射关系,并将所述映射关系作为所述预设质心部署映射关系。3.根据权利要求2所述的方法,其特征在于,所述对所述预设检索数据集进行分片划分,得到多个第二特征向量集合包括:确定所述样本特征向量的维度;计算所述预设检索数据集中的样本特征向量在每个维度上的方差;按照方差大小从大到小的顺序依次对每个维度上样本特征向量,进行中值超平面分割处理,得到多个第二特征向量集合。4.根据权利要求2所述的方法,其特征在于,所述对所述预设检索数据集进行分片划分,得到多个第二特征向量集合包括:对所述预设检索数据集进行聚类处理,得到多个第二特征向量集合。5.根据权利要求1所述的方法,其特征在于,所述获取待检索特征向量包括:接收客户端发送的目标待检索数据;对所述目标待检索数据进行特征提取,得到至少一个目标特征向量;将所述至少一个目标特征向量作为所述待检索特征向量。6.根据权利要求2所述的方法,其特征在于,所述获取原始数据集包括:获取多个样本数据;对所述样本数据进行特征提取,得到所述样本数据的特征向量;将所述多个样本数据的特征向量作为所述多个样本特征向量,将所述多个样本特征向量作为所述原始数据集。7.根据权利要求1所述的方法,其特征在于,在向所述对应的分片服务器发送数据检索
指令,所述数据检索指令携带有所述待检索特征向量,以使所述对应的分片服务器基于所述待检索特征向量进行数据检索,得到至少一个检索结果特征向量之后,所述方法还包括:接收所述对应的分片服务器发送的至少一个检索结果数据,所述至少一个检索结果数据是所述对应的分片服务器基于所述待检索特征向量进行数据检索,得到至少一个检索结果特征向量之后,确定的与所述检索结果特征向量对应的检索结果数据;将所述检索结果数据发送到客户端。8.一种数据处理方法,其特征在于,所述方法包括:获取原始数据集,所述原始数据集包括多个样本特征向量;对所述多个样本特征向量进行聚类处理,得到预设检索数据集,所述预设检索数据集包括多...

【专利技术属性】
技术研发人员:褚攀徐浩
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1