一种向量数据的检索、存储方法及装置制造方法及图纸

技术编号:42679814 阅读:33 留言:0更新日期:2024-09-10 12:30
本申请涉及一种向量数据的检索、存储方法及装置,用以降低向量检索时的比较次数,提高向量检索业务的时效性,同时降低检索过程占用的处理器资源。在本申请中,方法包括:将待检索向量转换为待检索数据指纹,并将待检索数据指纹分为M个待检索子指纹;在节点位图中,分别确定与相应的待检索子指纹的相似子指纹,在至少一个非首层节点位图中确定相似子指纹时,在前一层确定出的相似子指纹所链接的节点位图中进行确定;选取满足预设条件的相似子指纹进行拼接,若拼接获得至少一个目标数据指纹,则从目标数据指纹中筛选相似数据指纹,并将相似数据指纹对应的向量确定为待检索向量的相似向量。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种向量数据的检索、存储方法及装置


技术介绍

1、在复杂的金融业务中,反欺诈审核一直是风控业务的关键环节,在进行反欺诈审核时,向量相似度比较可以用于识别和检测各种类型的欺诈行为。通过将不同的特征表示为向量,并计算这些向量之间的相似度,可以发现潜在的欺诈模式。

2、在向量相似度比较算法中,局部敏感性哈希算法(locality-sensetive hashing,lsh)因其可以在大模数据集上快速进行搜索以及简单高效,无需样本训练而得到广泛应用。simhash算法是一种lsh实现,其可以将一段文本通过一系列哈希操作转成一个多位的二进制指纹,然后通过海明距离计算两个二进制指纹的相似度。

3、举例来说,在图片相似性比较的背景识别场景中,假设有5亿个样本识别场景,每个样本识别场景平均有2张背景图片,则每张背景图片经过向量化后,转成一个高维向量数据,通过simhash算法进行降维处理,得到10亿个定长为64位(bit)的数据指纹,在识别准备阶段,需要对上述10亿个数据指纹进行储存。

4、当获取到新图片,需本文档来自技高网...

【技术保护点】

1.一种向量数据的检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等于预设阈值的相似子指纹,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于预先建立的差异位数检索树,在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等于预设阈值的相似子指纹,包括:

4.根据权利要求1-3中任一项所述的方法,其特征在于,所述在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等...

【技术特征摘要】

1.一种向量数据的检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等于预设阈值的相似子指纹,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于预先建立的差异位数检索树,在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等于预设阈值的相似子指纹,包括:

4.根据权利要求1-3中任一项所述的方法,其特征在于,所述在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等于预设阈值的相似子指纹,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述预设阈值和该相似子指纹所在检索链路已使用的总差异位数,在第j层位图结构内该相似子指纹链接的节点位图中,确定与该待检索子指纹差异位数小于或等于目标数值的相似子指纹,包括:

6.根据权利要求4所述的方法,其特征在于,所述方法还包括:

7.根据权利要求4所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1-3中任一项所述的方法,其特征在于,所述从各个待检索子指纹的相似子指纹中,选取满足预设条件的相似子指纹进行拼接,包括:

9.根据权利要求1-3中任一项所述的方法,其特征在于,所述指纹数据库中存储的数据指纹,是以如下方式存储的:

【专利技术属性】
技术研发人员:曹亚飞孙明堃陈政
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1