【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种向量数据的检索、存储方法及装置。
技术介绍
1、在复杂的金融业务中,反欺诈审核一直是风控业务的关键环节,在进行反欺诈审核时,向量相似度比较可以用于识别和检测各种类型的欺诈行为。通过将不同的特征表示为向量,并计算这些向量之间的相似度,可以发现潜在的欺诈模式。
2、在向量相似度比较算法中,局部敏感性哈希算法(locality-sensetive hashing,lsh)因其可以在大模数据集上快速进行搜索以及简单高效,无需样本训练而得到广泛应用。simhash算法是一种lsh实现,其可以将一段文本通过一系列哈希操作转成一个多位的二进制指纹,然后通过海明距离计算两个二进制指纹的相似度。
3、举例来说,在图片相似性比较的背景识别场景中,假设有5亿个样本识别场景,每个样本识别场景平均有2张背景图片,则每张背景图片经过向量化后,转成一个高维向量数据,通过simhash算法进行降维处理,得到10亿个定长为64位(bit)的数据指纹,在识别准备阶段,需要对上述10亿个数据指纹进行储存。
4
...【技术保护点】
1.一种向量数据的检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等于预设阈值的相似子指纹,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于预先建立的差异位数检索树,在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等于预设阈值的相似子指纹,包括:
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子
...【技术特征摘要】
1.一种向量数据的检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等于预设阈值的相似子指纹,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于预先建立的差异位数检索树,在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等于预设阈值的相似子指纹,包括:
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述在指纹数据库每层位图结构包括的节点位图中,分别确定与相应的待检索子指纹差异位数小于或等于预设阈值的相似子指纹,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述预设阈值和该相似子指纹所在检索链路已使用的总差异位数,在第j层位图结构内该相似子指纹链接的节点位图中,确定与该待检索子指纹差异位数小于或等于目标数值的相似子指纹,包括:
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
8.根据权利要求1-3中任一项所述的方法,其特征在于,所述从各个待检索子指纹的相似子指纹中,选取满足预设条件的相似子指纹进行拼接,包括:
9.根据权利要求1-3中任一项所述的方法,其特征在于,所述指纹数据库中存储的数据指纹,是以如下方式存储的:
【专利技术属性】
技术研发人员:曹亚飞,孙明堃,陈政,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。