一种高维空间数据的查询方法、装置及计算机可读介质制造方法及图纸

技术编号:15542743 阅读:89 留言:0更新日期:2017-06-05 11:33
本发明专利技术提供了一种高维空间数据的查询方法、装置及计算机可读介质,包括:针对高维空间的每一个数据点,确定相应的Z值;将各个数据点按照相应Z值的大小顺序,依次存储到磁盘中的磁盘页面上;根据每一个数据点相应的Z值和存储有数据点的各个磁盘页面,建立索引表;确定查询点,并计算所述索引表中每一个磁盘页面与所述查询点的距离;根据所述索引表中每一个磁盘页面与所述查询点的距离,进行数据查询。本方案可以提高查询效率。

Method, device and computer readable medium for querying high-dimensional spatial data

The invention provides a query method, a high dimensional data device and computer readable medium, including: each data point in high dimensional space, determine the corresponding Z value; each data point according to the corresponding Z value of the size of the order, are stored to disk disk on the page; according to the each data point is the corresponding Z value and stores the data points of each disk page, an index table; determine the query point, and calculate the index table in each disk page and the query point; according to the index table in each disk page with the query point. The distance of data query. This scheme can improve query efficiency.

【技术实现步骤摘要】
一种高维空间数据的查询方法、装置及计算机可读介质
本专利技术涉及查询
,特别涉及一种高维空间数据的查询方法、装置及计算机可读介质。
技术介绍
随着多媒体数据爆炸性的增长,海量信息的检索也遇到了前所未有的挑战。由于多媒体数据多为非结构化数据,包括图像、视频和音频等,其语义信息无法直接由底层特征表达,使得传统信息检索不再适用,迫切需要发展面向多媒体数据的检索方法。通常的做法是为多媒体数据元提取特征向量,把海量多媒体数据库上的相似性检索转化为大规模高维特征向量间的NN(NearestNeighbor,最近邻)查询问题。给定一个查询对象,在信息库数据集中运用指定度量标准衡量特征向量间的相似性,最终找到和查询对象在特征上最接近的数据元。然而现有技术在进行相似性查询时,是随机在存储有数据点的各个磁盘页面上进行查询,查询效率较低。
技术实现思路
本专利技术实施例提供了一种高维空间数据的查询方法、装置及计算机可读介质,以提高查询效率。第一方面,本专利技术实施例提供了一种高维空间数据的查询方法,包括:针对高维空间的每一个数据点,确定相应的Z值;将各个数据点按照相应Z值的大小顺序,依次存储到磁盘中的磁盘页面上;根据每一个数据点相应的Z值和存储有数据点的各个磁盘页面,建立索引表;确定查询点,并计算所述索引表中每一个磁盘页面与所述查询点的距离;根据所述索引表中每一个磁盘页面与所述查询点的距离,进行数据查询。优选地,所述针对高维空间的每一个数据点,确定相应的Z值,包括:利用下述方式确定高维空间中当前数据点p的Z值:确定复合LSH函数G,其中,复合LSH函数G中包括m个哈希函数,m为不小于1的整数;计算当前数据点p在复合LSH函数G下的复合哈希键K=G(p);其中,ki用于表征复合哈希键K中第i个哈希值,每一个哈希值为二进制数;针对复合哈希键K中包括的每一个哈希值进行位交叉操作,生成当前数据点p的Z值Z(p);利用上述确定当前数据点p的Z值的方式,确定高维空间中除当前数据点p以外的其他每一个数据点相应的Z值。优选地,所述根据每一个数据点相应的Z值和存储有数据点的各个磁盘页面,建立索引表,包括:在每一个磁盘页面上选择第一设定个数的数据点作为相应磁盘页面的代表数据点;根据每一个代表数据点对应的Z值,构建B+树索引;将所述B+树索引和存储有数据点的各个磁盘页面,构建为索引表。优选地,所述第一设定个数为2;所述计算所述索引表中每一个磁盘页面与所述查询点的距离,包括:利用第一公式计算所述索引表中当前磁盘页面与所述查询点q的距离DistPage:所述第一公式:其中,Zq用于表征所述查询点q对应的Z值,L和U分别为在该当前磁盘页面上选择的两个代表数据点分别对应的Z值;dist(Zq,L)用于表征Zq与L之间的距离,dist(Zq,U)用于表征Zq与U之间的距离。优选地,进一步包括:建立第二设定个数的索引表,以根据所述第二设定个数的索引表执行所述根据所述索引表中每一个磁盘页面与所述查询点的距离,进行数据查询的操作;所述根据所述索引表中每一个磁盘页面与所述查询点的距离,进行数据查询,包括:S1:将每一个索引表中距离所述查询点最近的磁盘页面,以及该磁盘页面相邻的一个磁盘页面加载到页面集中;S2:在所述页面集中计算距离所述查询点最近的目标磁盘页面,将所述目标磁盘页面从所述页面集中取出;S3:针对取出的所述目标磁盘页面上的各个数据点进行查询,并将所述目标磁盘页面所属索引表中与所述目标磁盘页面相邻的且未加载到所述页面集中的磁盘页面加载到所述页面集中,并继续执行S2-S3,直到S3中进行查询的目标磁盘页面为从所述页面集中取出的第NP个磁盘页面为止,其中,NP为预先设置的第三设定个数。第二方面,本专利技术实施例提供了一种高维空间数据的查询装置,包括:确定单元,用于针对高维空间的每一个数据点,确定相应的Z值;放置单元,用于将各个数据点按照相应Z值的大小顺序,依次存储到磁盘中的磁盘页面上;建立单元,用于根据每一个数据点相应的Z值和存储有数据点的各个磁盘页面,建立索引表;计算单元,用于确定查询点,并计算所述索引表中每一个磁盘页面与所述查询点的距离;查询单元,用于根据所述索引表中每一个磁盘页面与所述查询点的距离,进行数据查询。优选地,所述确定单元,具体用于利用下述方式确定高维空间中当前数据点p的Z值:确定复合LSH函数G,其中,复合LSH函数G中包括m个哈希函数,m为不小于1的整数;计算当前数据点p在复合LSH函数G下的复合哈希键K=G(p);其中,ki用于表征复合哈希键K中第i个哈希值,每一个哈希值为二进制数;针对复合哈希键K中包括的每一个哈希值进行位交叉操作,生成当前数据点p的Z值Z(p);利用上述确定当前数据点p的Z值的方式,确定高维空间中除当前数据点p以外的其他每一个数据点相应的Z值;和/或,所述建立单元,具体用于:在每一个磁盘页面上选择第一设定个数的数据点作为相应磁盘页面的代表数据点;根据每一个代表数据点对应的Z值,构建B+树索引;将所述B+树索引和存储有数据点的各个磁盘页面,构建为索引表。优选地,所述第一设定个数为2;所述计算单元,具体用于利用第一公式计算所述索引表中当前磁盘页面与所述查询点q的距离DistPage:所述第一公式:其中,Zq用于表征所述查询点q对应的Z值,L和U分别为在该当前磁盘页面上选择的两个代表数据点分别对应的Z值;dist(Zq,L)用于表征Zq与L之间的距离,dist(Zq,U)用于表征Zq与U之间的距离。优选地,所述建立单元,进一步用于建立第二设定个数的索引表,以根据所述第二设定个数的索引表执行所述根据所述索引表中每一个磁盘页面与所述查询点的距离,进行数据查询的操作;所述查询单元,具体用于执行如下步骤:S1:将每一个索引表中距离所述查询点最近的磁盘页面,以及该磁盘页面相邻的一个磁盘页面加载到页面集中;S2:在所述页面集中计算距离所述查询点最近的目标磁盘页面,将所述目标磁盘页面从所述页面集中取出;S3:针对取出的所述目标磁盘页面上的各个数据点进行查询,并将所述目标磁盘页面所属索引表中与所述目标磁盘页面相邻的且未加载到所述页面集中的磁盘页面加载到所述页面集中,并继续执行S2-S3,直到S3中进行查询的目标磁盘页面为从所述页面集中取出的第NP个磁盘页面为止,其中,NP为预先设置的第三设定个数。第三方面,本专利技术实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述任一所述的方法。本专利技术实施例提供了一种高维空间数据的查询方法、装置及计算机可读介质,通过确定高维空间中每一个数据点的Z值,按照各个数据点Z值的大小顺序,对数据点进行存储,如此,相邻的两个磁盘页面上的数据点对应Z值具有一定的关系,例如当前磁盘页面上各个数据点分别对应的Z值均比相邻磁盘页面上各个数据点分别对应的Z值大或小,因此,磁盘页面上的数据点具有一定的聚敛性,因此,根据查询点与每一个磁盘页面的距离来进行数据查询,可以提高查询效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普本文档来自技高网...
一种高维空间数据的查询方法、装置及计算机可读介质

【技术保护点】
一种高维空间数据的查询方法,其特征在于,包括:针对高维空间的每一个数据点,确定相应的Z值;将各个数据点按照相应Z值的大小顺序,依次存储到磁盘中的磁盘页面上;根据每一个数据点相应的Z值和存储有数据点的各个磁盘页面,建立索引表;确定查询点,并计算所述索引表中每一个磁盘页面与所述查询点的距离;根据所述索引表中每一个磁盘页面与所述查询点的距离,进行数据查询。

【技术特征摘要】
1.一种高维空间数据的查询方法,其特征在于,包括:针对高维空间的每一个数据点,确定相应的Z值;将各个数据点按照相应Z值的大小顺序,依次存储到磁盘中的磁盘页面上;根据每一个数据点相应的Z值和存储有数据点的各个磁盘页面,建立索引表;确定查询点,并计算所述索引表中每一个磁盘页面与所述查询点的距离;根据所述索引表中每一个磁盘页面与所述查询点的距离,进行数据查询。2.根据权利要求1所述的方法,其特征在于,所述针对高维空间的每一个数据点,确定相应的Z值,包括:利用下述方式确定高维空间中当前数据点p的Z值:确定复合LSH函数G,其中,复合LSH函数G中包括m个哈希函数,m为不小于1的整数;计算当前数据点p在复合LSH函数G下的复合哈希键K=G(p);其中,ki用于表征复合哈希键K中第i个哈希值,每一个哈希值为二进制数;针对复合哈希键K中包括的每一个哈希值进行位交叉操作,生成当前数据点p的Z值Z(p);利用上述确定当前数据点p的Z值的方式,确定高维空间中除当前数据点p以外的其他每一个数据点相应的Z值。3.根据权利要求1所述的方法,其特征在于,所述根据每一个数据点相应的Z值和存储有数据点的各个磁盘页面,建立索引表,包括:在每一个磁盘页面上选择第一设定个数的数据点作为相应磁盘页面的代表数据点;根据每一个代表数据点对应的Z值,构建B+树索引;将所述B+树索引和存储有数据点的各个磁盘页面,构建为索引表。4.根据权利要求3所述的方法,其特征在于,所述第一设定个数为2;所述计算所述索引表中每一个磁盘页面与所述查询点的距离,包括:利用第一公式计算所述索引表中当前磁盘页面与所述查询点q的距离DistPage:所述第一公式:其中,Zq用于表征所述查询点q对应的Z值,L和U分别为在该当前磁盘页面上选择的两个代表数据点分别对应的Z值;dist(Zq,L)用于表征Zq与L之间的距离,dist(Zq,U)用于表征Zq与U之间的距离。5.根据权利要求1-4中任一所述的方法,其特征在于,进一步包括:建立第二设定个数的索引表,以根据所述第二设定个数的索引表执行所述根据所述索引表中每一个磁盘页面与所述查询点的距离,进行数据查询的操作;所述根据所述索引表中每一个磁盘页面与所述查询点的距离,进行数据查询,包括:S1:将每一个索引表中距离所述查询点最近的磁盘页面,以及该磁盘页面相邻的一个磁盘页面加载到页面集中;S2:在所述页面集中计算距离所述查询点最近的目标磁盘页面,将所述目标磁盘页面从所述页面集中取出;S3:针对取出的所述目标磁盘页面上的各个数据点进行查询,并将所述目标磁盘页面所属索引表中与所述目标磁盘页面相邻的且未加载到所述页面集中的磁盘页面加载到所述页面集中,并继续执行S2-S3,直到S3中进行查询的目标磁盘页面为从所述页面集中取出的第NP个磁盘页面为止,其中,NP为预先设置的第三设定个数。6.一种高维空间数据的查询装置,其特征在于,包括...

【专利技术属性】
技术研发人员:崔江涛焦文菲冯小康薛文卓刘畅
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1