数据处理方法和系统技术方案

技术编号:32607687 阅读:24 留言:0更新日期:2022-03-12 17:32
本申请公开了一种数据处理方法和系统。其中,该方法包括:接收第一图像数据;对第一图像数据进行特征提取,得到第一特征向量;生成第一特征向量对应的第一索引标识;确定第一索引标识对应的第一存储块中的第一存储区域;将第一特征向量和第一索引标识存储至第一存储区域;输出第一图像数据对应的存储结果。本申请解决了相关技术中向量检索方法中的索引构建需要进行数据训练,导致写入新的特征向量时,需要重新构建索引,索引构建成本较高的技术问题。题。题。

【技术实现步骤摘要】
数据处理方法和系统


[0001]本申请涉及数据检索
,具体而言,涉及一种数据处理方法和系统。

技术介绍

[0002]目前,最近邻搜索方法在计算机视觉、文本、图像检索等领域中广泛应用。最近邻检索(Nearest Neighbor Search,NNS)也可以称为“最近点搜索”(Closest point search),可以是一个在尺度空间中寻找最近点的优化问题。其问题描述如下:在尺度空间M中给定一个点集S和一个目标点q∈M,在S中找到距离q最近的点。在大多数情况下,M为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。
[0003]传统最近邻搜索方法的流程可以分为索引构建和索引检索两部分。在索引构建流程中,需要首先进行数据训练,然后才能构建索引。在索引构建好之后,当有新的数据写入时,往往需要重新构建索引,限制了检索使用场景,增加索引重复构建的成本。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种数据处理方法和系统,以至少解决相关技术中向量检索本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:接收第一图像数据;对所述第一图像数据进行特征提取,得到第一特征向量;生成所述第一特征向量对应的第一索引标识;确定所述第一索引标识对应的第一存储块中的第一存储区域;将所述第一特征向量和所述第一索引标识存储至所述第一存储区域;输出所述第一图像数据对应的存储结果。2.根据权利要求1所述的方法,其中,确定所述第一索引标识对应的第一存储块中的第一存储区域包括:基于所述第一索引标识,确定所述第一存储块的数据块标识和偏移量;基于所述数据块标识,确定所述第一存储块;基于所述偏移量,确定所述第一存储区域。3.根据权利要求1所述的方法,其中,在将所述第一特征向量和所述第一索引标识存储至所述第一存储区域之后,所述方法还包括如下至少之一:将所述第一存储块映射至磁盘中;通过预设接口,将所述第一存储块存储至远程存储设备中。4.一种数据处理方法,包括:接收第一特征向量;生成所述第一特征向量对应的第一索引标识;确定所述第一索引标识对应的第一存储块中的第一存储区域;将所述第一特征向量和所述第一索引标识存储至所述第一存储区域;输出所述第一特征向量对应的存储结果。5.根据权利要求4所述的方法,其中,确定所述第一索引标识对应的第一存储块中的第一存储区域包括:基于所述第一索引标识,确定所述第一存储块的数据块标识和偏移量;基于所述数据块标识,确定所述第一存储块;基于所述偏移量,确定所述第一存储区域。6.根据权利要求4所述的方法,其中,在将所述第一特征向量和所述第一索引标识存储至所述第一存储区域之后,所述方法还包括如下至少之一:将所述第一存储块映射至磁盘中;通过预设接口,将所述第一存储块存储至远程存储设备中。7.一种数据处理方法,包括:获取第一特征向量;生成所述第一特征向量对应的第一索引标识;确定所述第一索引标识对应的第一存储块中的第一存储区域;将所述第一特征向量和所述第一索引标识存储至所述第一存储区域。8.根据权利要求7所述的方法,其中,确定所述第一索引标识对应的第一存储块中的第一存储区域包括:基于所述第一索引标识,确定所述第一存储块的数据块标识和偏移量;
基于所述数据块标识,确定所述第一存储块;基于所述偏移量,确定所述第一存储区域。9.根据权利要求7所述的方法,其中,在将所述第一特征向量和所述第一索引标识存储至所述第一存储区域之后,所述方法还包括如下至少之一:将所述第一存储块映射至磁盘中;通过预设接口,将所述第一存储块存储至远程存储设备中。10.根据权利要求7所述的方法,其中,在将所述第一特征向量和所述第一索引标识存储至所述第一存储区域之前,所述方法还包括:基于分层可导航小世界图算法,确定已存储的多个特征向量中的第二特征向量,其中,所述第二特征向量与所述第一特征向量的特征距离小于预设距离;确定所述第二特征向量的第二索引标识;基于所述第二索引标识,生成所述第一特征向量对应的数据表;将所述第一特征向量、所述第一索引标识和所述数据表存储至所述第一存储区域。11.根据权利要求10所述的方法,其中,基于所述第二索引标识,生成所述第一特征向量对应的数据表包括:确定所述第二特征向量的数量;基于所述数量和所述第二索引标识,生成所述数据表。12.根据权利要求7所述的方法,其中,在将所述第一特征向量和所述第一索引标识存储至所述第一存储区域之后,所...

【专利技术属性】
技术研发人员:肖允锋代兵
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1