数据检索、数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号：33136428 阅读：30 留言：0更新日期：2022-04-22 13:43

本申请公开了一种数据检索、数据处理方法、装置、设备及存储介质，所述数据检索方法包括获取待检索特征向量；确定预设检索数据集中的多个质心特征向量；分别计算多个质心特征向量与待检索特征向量的相似度；当任一质心特征向量与所述待检索特征向量的相似度满足预设条件时，基于预设质心部署映射关系，确定与待检索特征向量的相似度满足预设条件的质心特征向量对应的分片服务器；向对应的分片服务器发送数据检索指令，数据检索指令携带有待检索特征向量，以使对应的分片服务器基于待检索特征向量进行数据检索，得到至少一个检索结果特征向量。利用本申请提供的技术方案能够提升数据检索的吞吐率，减少资源浪费，提升大数据检索时的效率。索时的效率。索时的效率。

全部详细技术资料下载

【技术实现步骤摘要】
数据检索、数据处理方法、装置、设备及存储介质

[0001]本申请涉及大数据处理
，具体涉及一种数据检索、数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着人工智能和大数据的快速发展，现如今数据检索在日常生活中的应用越来越广泛，例如购物网站的商品检索和疑犯追踪等，可以根据给定的对象快速检索出类似或相关的对象。
[0003]在实际的检索系统中，由于被检索数据集往往包括海量数据，数据集过于庞大，单台服务器的CPU和内存都难以承受这样的运算量。因此现有技术通过将整个被检索数据集随机划分为若干子集并分别将这些子集部署到不同的服务器，当需要进行检索时，再将待检索目标广播到这些服务器分别进行检索，从而减少单个服务器的检索压力，但这种方式存在计算资源浪费，且检索系统吞吐率较低，因此，需要提供更加有效的方案。

技术实现思路

[0004]为了解决现有技术的问题，本申请提供了一种数据检索、数据处理方法、装置、设备及存储介质。所述技术方案如下：
[0005]本申请一方面提供了一种数据检索方法，所述方法包括：
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据检索方法，其特征在于，所述方法包括：获取待检索特征向量；确定预设检索数据集中的多个质心特征向量；分别计算所述多个质心特征向量与所述待检索特征向量的相似度；当任一质心特征向量与所述待检索特征向量的相似度满足预设条件时，基于预设质心部署映射关系，确定与所述待检索特征向量的相似度满足预设条件的质心特征向量对应的分片服务器；向所述对应的分片服务器发送数据检索指令，所述数据检索指令携带有所述待检索特征向量，以使所述对应的分片服务器基于所述待检索特征向量进行数据检索，得到至少一个检索结果特征向量。2.根据权利要求1所述的方法，其特征在于，在获取待检索特征向量之前，所述方法还包括：获取原始数据集，所述原始数据集包括多个样本特征向量；对所述多个样本特征向量进行聚类处理，得到预设检索数据集，所述预设检索数据集包括多个第一特征向量集合，且每个第一特征向量集合包括对应的质心特征向量；对所述预设检索数据集进行分片划分，得到多个第二特征向量集合，其中，所述第二特征向量集合包括至少一个所述第一特征向量集合对应的质心特征向量；将所述第二特征向量集合发送到对应的分片服务器进行存储；建立所述质心特征向量与对应的分片服务器之间的映射关系，并将所述映射关系作为所述预设质心部署映射关系。3.根据权利要求2所述的方法，其特征在于，所述对所述预设检索数据集进行分片划分，得到多个第二特征向量集合包括：确定所述样本特征向量的维度；计算所述预设检索数据集中的样本特征向量在每个维度上的方差；按照方差大小从大到小的顺序依次对每个维度上样本特征向量，进行中值超平面分割处理，得到多个第二特征向量集合。4.根据权利要求2所述的方法，其特征在于，所述对所述预设检索数据集进行分片划分，得到多个第二特征向量集合包括：对所述预设检索数据集进行聚类处理，得到多个第二特征向量集合。5.根据权利要求1所述的方法，其特征在于，所述获取待检索特征向量包括：接收客户端发送的目标待检索数据；对所述目标待检索数据进行特征提取，得到至少一个目标特征向量；将所述至少一个目标特征向量作为所述待检索特征向量。6.根据权利要求2所述的方法，其特征在于，所述获取原始数据集包括：获取多个样本数据；对所述样本数据进行特征提取，得到所述样本数据的特征向量；将所述多个样本数据的特征向量作为所述多个样本特征向量，将所述多个样本特征向量作为所述原始数据集。7.根据权利要求1所述的方法，其特征在于，在向所述对应的分片服务器发送数据检索
指令，所述数据检索指令携带有所述待检索特征向量，以使所述对应的分片服务器基于所述待检索特征向量进行数据检索，得到至少一个检索结果特征向量之后，所述方法还包括：接收所述对应的分片服务器发送的至少一个检索结果数据，所述至少一个检索结果数据是所述对应的分片服务器基于所述待检索特征向量进行数据检索，得到至少一个检索结果特征向量之后，确定的与所述检索结果特征向量对应的检索结果数据；将所述检索结果数据发送到客户端。8.一种数据处理方法，其特征在于，所述方法包括：获取原始数据集，所述原始数据集包括多个样本特征向量；对所述多个样本特征向量进行聚类处理，得到预设检索数据集，所述预设检索数据集包括多...

【专利技术属性】
技术研发人员：褚攀，徐浩，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人