用于大数据应用的分层局部敏感哈希(LSH)分区索引制造技术

技术编号：25998825 阅读：18 留言：0更新日期：2020-10-20 19:09

本发明专利技术描述了用于对多个数据对象进行分区的系统和方法，其中，每个数据对象由各自的高维特征向量表示。该方法包括：对每个高维特征向量执行哈希函数，以为由所述高维特征向量表示的数据对象生成各自的低维二进制紧凑特征向量；对每个紧凑特征向量执行另一个哈希函数，以将子索引ID分配给所述紧凑特征向量；将紧凑特征向量分区到各自的分区组中，其中，所述各自的分区组对应于分配给所述紧凑特征向量的子索引ID。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于大数据应用的分层局部敏感哈希(LSH)分区索引相关申请本申请要求于2018年3月1日递交的第62/637,278号美国临时专利申请和于2018年7月24日递交的第16/044,362号美国实用型专利申请的益处和在先申请优先权，该内容皆以引入的方式并入本文中。
本专利技术通常涉及数据库的索引和搜索，特别涉及非结构化数据的分区索引。
技术介绍
存储在数字信息存储库(例如在线互联网和基于云的数据库)中的非结构化多媒体数据对象(例如包括图像数据、视频数据、音频数据，文本数据和其他复杂的数字对象)的数量正在急剧增长。以准确且资源有效的方式处理非结构化数据的搜索查询是一项技术挑战。相似度搜索是一种基于查询对象和搜索数据库中的数据对象的相似度之间的比较来搜索非结构化数据对象的数据搜索方法。相似度搜索通常涉及为数据库中存储的每个数据对象创建元数据，为查询对象创建元数据，然后比较所述查询对象的元数据与所述数据对象的元数据。每个对象的元数据可以采用特征向量的形式，该特征向量是表示所述对象的多维数值特征向量。在这方面，相似度搜索可以被定义为从数据库中存储的多个特征向量中找到与给定特征向量(例如，查询向量)最相似的特征向量。相似度搜索算法可用于模式识别与分类、推荐系统、统计机器学习以及诸多其它领域。因此，相似度搜索通常涉及使用特征提取算法将查询对象(例如，图像、视频样本、音频样本或文本)翻译为(转换为)表示所述查询对象的查询特征向量。然后，所述查询特征向量用于搜索特征向量的数据库，以定位与所述查询特征向量...

【技术保护点】
1.一种用于对多个数据对象进行分区的方法，其特征在于，每个数据对象由各自的高维特征向量表示，包括：/n对每个高维特征向量执行哈希函数，以为由所述高维特征向量表示的数据对象生成各自的低维二进制紧凑特征向量；/n对每个紧凑特征向量执行另一个哈希函数，以将子索引ID分配给所述紧凑特征向量；/n将紧凑特征向量分区到各自的分区组中，其中，所述各自的分区组对应于分配给所述紧凑特征向量的子索引ID。/n

【技术特征摘要】
【国外来华专利技术】20180301 US 62/637,278;20180724 US 16/044,3621.一种用于对多个数据对象进行分区的方法，其特征在于，每个数据对象由各自的高维特征向量表示，包括：
对每个高维特征向量执行哈希函数，以为由所述高维特征向量表示的数据对象生成各自的低维二进制紧凑特征向量；
对每个紧凑特征向量执行另一个哈希函数，以将子索引ID分配给所述紧凑特征向量；
将紧凑特征向量分区到各自的分区组中，其中，所述各自的分区组对应于分配给所述紧凑特征向量的子索引ID。

2.根据权利要求1所述的方法，其特征在于，对每个高维特征向量执行的所述哈希函数为局部敏感哈希(localitysensitivehashing，简称LSH)函数，对每个紧凑特征向量执行的所述另一个哈希函数也是LSH函数。

3.根据权利要求2所述的方法，其特征在于，所述哈希函数和所述另一个哈希函数为正交角哈希函数。

4.根据权利要求3所述的方法，其特征在于，包括：为每个所述各自的分区组生成可搜索的子索引结构。

5.根据权利要求4所述的方法，其特征在于，每个紧凑特征向量仅分区到单个所述分区组。

6.根据权利要求4或5所述的方法，其特征在于，包括：将所述子索引结构作为独立可搜索的结构存储，使得所述子索引结构彼此间可以并发搜索。

7.根据权利要求4至6中任一项所述的方法，其特征在于，所述为每个所述各自的分区组生成可搜索的子索引结构包括：对于每个分区组：
为所述分区组中的紧凑特征向量生成多个扭曲紧凑特征向量集，其中，每个所述扭曲紧凑特征向量集是通过对所述分区组中的紧凑特征向量应用各自的随机置乱排列生成的；
对于每个扭曲紧凑特征向量集，基于所述扭曲紧凑特征向量集中的哈希值的序列，为由所述分区组中的紧凑特征向量表示的数据对象生成索引表；
包括为所述分区组的可搜索子索引结构中的每个所述扭曲紧凑特征向量集生成的索引表。

8.一种用于对数据对象进行分区的系统，其特征在于，每个数据对象由各自的高维特征向量表示，包括：
一个或多个处理单元；
系统存储设备，与每个所述处理单元耦合，所述系统存储设备上有形地存储可执行指令，当所述可执行指令由所述一个或多个处理单元执行时，使得所述系统：
对每个高维特征向量执行哈希函数，以为由所述高维特征向量表示的数据对象生成各自的低维二进制紧凑特征向量；
对每个紧凑特征向量执行另一个哈希函数，以将子索引ID分配给所述紧凑特征向量；
将紧凑特征向量分区到各自的分区组中，其中，所述各自的分区组对应于分配给所述紧凑特征向量的子索引ID。

9.根据权利要求8所述的系统，其特征在于，对每个高维特征向量执行的所述哈希函数为局部敏感哈希(localitysensitivehashing，简称LSH)函数，对每个紧凑特征向量执行的所述另一个哈希函数也是LSH函数。

10.根据权利要求9所述的系统，其特征在于，所述哈希函数和所述另一个哈希函数为正交角哈希函数。

11.根据权利要求10所述的系统，其特征在于，包括：为每个所述各自的分区组生成可搜索的子索引结构，其中，每个紧凑特征向量仅分区到单个所述分区组。

12.根据权利要求11所述的系统，其特征在于，当所述可执行指令由所述一个或多个处理单元执行时，使得所述系统将所述子索引结构作为独立可搜索的结构存储在一个或多个存储器中，使得所述子索引结构彼此间可以并发搜索。

13.根据权利要求11或12所述的系统，其特征在于，当所述可执行指令由所述一个或多个处理单元执行时，使得所述系统通过以下操作为每个所述各自的分区组生成所述可搜索子索引结构：
为所述分区组中的紧凑特征向量生成多个扭曲紧凑特征向量集，其中，每个所述扭曲紧凑特征向量集是通过对所述分区组中的紧凑特征向量应用各自的随机置乱排列生成的；
对于每个扭曲紧凑特征向量集，基于所述扭曲紧凑特征向量集中的哈希值的序列，为由所述分区组中的紧凑特征向量表示的数据对象生成索引表；
包括为所述分区组的可搜索子索引结构中的每个所述扭曲紧凑特征向量集生成的索引表。

14.一种计算机程序产品，其特征在于，包括一种媒介，其上有形地存储可执行指令，当所述可执行指令由数字处理系统执行时，使得所述数字处理系统：
对多个高维特征向量中的每个高维特征向量执行哈希函数，以生成各自的低维二进制紧凑特征向量，每个所述高维特征向量表示各自的数据对象；
对每个紧凑特征向量执行另一个哈希函数，以将子索引ID分配给所述紧凑特征向量；
将紧凑特征向量分区到各自的分区组中，其中，所述各自的分区组对应于分配给所述紧凑特征向量的子索引ID。

【专利技术属性】
技术研发人员：路阳迪，何文波，阿米尔·纳巴契安，
申请(专利权)人：华为技术加拿大有限公司，
类型：发明
国别省市：加拿大;CA

全部详细技术资料下载我是这个专利的主人