一种基于PM#树的加密数据库近似最近邻连接优化方法技术

技术编号:38751899 阅读:9 留言:0更新日期:2023-09-09 11:18
本发明专利技术公开了一种基于PM#树的加密数据库近似最近邻连接优化方法,涉及加密数据库的近似最近邻连接优化技术领域,解决了现有技术中检索效率不高,且检索过程不安全的问题;该方法包括:利用哈希投影,将高维数据集投影至低维空间中,得到低维数据集;对高维数据集进行加密,得到加密高维数据集;对PM树在节点分裂时产生的冗余节点进行删除,得到PM#树,并利用PM#树对高维数据集建立索引,得到索引文件;对索引文件进行加密,得到加密索引;根据加密索引、低维数据集以及加密高维数据集,完成对高维数据集的近似最近邻连接查询,得到查询结果;进而实现了降低计算量的前提下,对高维数据集进行加密,加快了检索速度,提高了检索质量。量。量。

【技术实现步骤摘要】
一种基于PM#树的加密数据库近似最近邻连接优化方法


[0001]本专利技术涉及加密数据库的近似最近邻连接优化
,尤其涉及一种基于PM#树的加密数据库近似最近邻连接优化方法。

技术介绍

[0002]随着互联网与通信技术的迅速发展,数据的规模正在以前所未有的速度增长,而数据的存在形式也在不断变化。近些年来,数字图像和视频等多媒体数据爆炸式增长,这些数据往往表示为高维数据,出于对数据安全的担忧,涉及用户隐私的高维数据会被加密存储,如何高效地对加密高维数据进行处理与分析已成为研究领域中的一个难点。
[0003]最近邻连接最早由Boehm和Krebs提出,在单次计算中完成一组数据的最近邻查询。对最近邻连接的研究受到以下事实的启发:与单独计算一个最近邻相比,一次计算所有查询点的最近邻可以显著提高检索效率。最近邻连接的引入有助于提高许多应用与算法的性能,例如k

means聚类、异常值检测、缺失值计算等。最近邻连接的方法主要可以分为三类,分别是基于IO的方法、基于主存的方法、并行分布式的方法。现有的高维数据近似最近邻连接优化方案主要专注于传统明文数据库的场景,然而,随着越来越多的应用与系统开始使用高维数据,高维数据的安全检索逐渐成为亟需解决的问题。

技术实现思路

[0004]本专利技术通过提供一种基于PM#树的加密数据库近似最近邻连接优化方法,解决了现有技术中检索效率不高,且检索过程不安全的问题,进而实现了降低计算量的前提下,对高维数据集进行加密,加快了检索速度,提高了检索质量。r/>[0005]本专利技术提供了一种基于PM#树的加密数据库近似最近邻连接优化方法,该方法包括:
[0006]利用哈希投影,将高维数据集投影至低维空间中,得到低维数据集;其中,所述低维数据集中每条数据的特征数小于所述高维数据集中每条数据的特征数;
[0007]对所述高维数据集进行加密,得到加密高维数据集;
[0008]对PM树在节点分裂时产生的冗余节点进行删除,得到PM#树,并利用所述PM#树对所述高维数据集建立索引,得到索引文件;
[0009]对所述索引文件进行加密,得到加密索引;
[0010]根据所述加密索引、所述低维数据集以及所述加密高维数据集,完成对所述高维数据集的近似最近邻连接查询,得到查询结果;其中,在查询时将所述加密索引加载至可信执行环境中。
[0011]在一种可能的实现方式中,所述利用哈希投影,将高维数据集投影至低维空间中,得到低维数据集,具体包括:
[0012]初始化多个局部敏感哈希函数,并利用标准正态分布生成多个正态随机值;其中,所述多个局部敏感哈希函数与所述多个正态随机值一一对应;
[0013]根据所述多个局部敏感哈希函数以及所述多个正态随机值,得到多个稳定局部哈希敏感函数;
[0014]根据所述多个稳定局部哈希敏感函数对所述高维数据集进行计算,得到与所述高维数据集中每条数据对应的投影数据点坐标;
[0015]根据所述投影数据点坐标,确定所述高维数据集中每条数据在所述低维空间中的位置,进而得到低维数据集。
[0016]在一种可能的实现方式中,所述高维数据集与所述索引文件的加密方法均为AES算法。
[0017]在一种可能的实现方式中,所述利用所述PM#树对所述高维数据集建立索引,得到索引文件,包括:
[0018]确定所述索引文件中的中枢点数量N;
[0019]随机从所述高维数据集选出K组预设中枢点集合,其中,每组所述预设中枢点集合包括N个节点;
[0020]分别计算所述K组预设中枢点集合中任意两个节点之间的多个欧式距离,并对所述多个欧式距离求和,得到K组预设中枢点集合的K个欧式距离;
[0021]获取所述K个欧式距离中的最大值,以及获取最大值对应的所述预设中枢点集合,将最大值对应的所述预设中枢点集合作为索引文件中枢点集合;
[0022]将所述索引文件中枢点集合中的节点作为所述索引文件的非叶节点;
[0023]利用非叶节点和叶子节点构建所述索引文件。
[0024]在一种可能的实现方式中,所述对所述索引文件进行加密,得到加密索引,包括:
[0025]获取不可信执行环境中的所述加密索引,在可信执行环境中,对所述加密索引进行解密,得到可信执行环境中的索引文件,其中,所述不可信执行环境在所述公有内存中,所述可信执行环境均在所述私有内存中;
[0026]对所述可信执行环境中的索引文件进行节点处理,之后采用AES算法对处理后的索引文件进行加密,得到可信执行环境下的加密索引文件;
[0027]将所述可信执行环境下的加密索引文件写入至所述私有内存中,得到加密索引。
[0028]在一种可能的实现方式中,所述根据所述加密索引、所述低维数据集以及所述加密高维数据集,完成对所述高维数据集的近似最近邻连接查询,包括:
[0029]将所述加密索引加载至可信执行环境中,获取可信执行环境中的密钥,根据密钥对所述加密索引中的非叶节点进行解密,得到可信执行环境中的索引文件;
[0030]获取待查询数据集中的每一条数据在所述低维数据集中的M个最邻近的数据,合并所述M个最邻近的数据,得到合并结果;
[0031]根据所述合并结果对所述可信执行环境中的索引进行查询,得到加密高维数据,并根据所述密钥,对所述加密高维数据进行解密,得到查询结果。
[0032]在一种可能的实现方式中,所述获取待查询数据集中的每一条数据在所述低维数据中的M个最邻近的数据,具体包括:
[0033]利用球面覆盖查询方法对所述低维数据集中的低维数据进行查询,得到多个查询点;
[0034]确定所述多个查询点是否以恒定的概率投影至所述高维数据集中;
[0035]若是,则利用所述多个查询点得到对应的M个最邻近的数据;
[0036]若否,则改变所述球面覆盖查询方法的查询参数继续查询,直至所述多个查询点以恒定的概率投影至所述高维数据集中,并利用所述多个查询点得到对应的M个最邻近的数据。
[0037]在一种可能的实现方式中,在得到查询结果之后,还包括:
[0038]对所述高维数据集进行修改,以保存所述低维数据集与所述加密索引之间的关系。
[0039]在一种可能的实现方式中,所述高维数据集与所述低维数据集一一对应。
[0040]本专利技术中提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0041]本专利技术通过采用了一种基于PM#树的加密数据库近似最近邻连接优化方法,该方法包括:利用哈希投影,将高维数据集投影至低维空间中,得到低维数据集;其中,低维数据集中每条数据的特征数小于高维数据集中每条数据的特征数;采用局部敏感哈希函数保持距离特性的特点,对高维数据进行降维,以降低总体的计算量;对高维数据集进行加密,得到加密高维数据集;加密高维数据以保护其数据安全;对PM树在节点分裂时产生的冗余节点进行删除,得到PM#树,并利用PM#树对高维数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于PM#树的加密数据库近似最近邻连接优化方法,其特征在于,包括:利用哈希投影,将高维数据集投影至低维空间中,得到低维数据集;其中,所述低维数据集中每条数据的特征数小于所述高维数据集中每条数据的特征数;对所述高维数据集进行加密,得到加密高维数据集;对PM树在节点分裂时产生的冗余节点进行删除,得到PM#树,并利用所述PM#树对所述高维数据集建立索引,得到索引文件;对所述索引文件进行加密,得到加密索引;根据所述加密索引、所述低维数据集以及所述加密高维数据集,完成对所述高维数据集的近似最近邻连接查询,得到查询结果;其中,在查询时将所述加密索引加载至可信执行环境中。2.根据权利要求1所述的方法,其特征在于,所述利用哈希投影,将高维数据集投影至低维空间中,得到低维数据集,具体包括:初始化多个局部敏感哈希函数,并利用标准正态分布生成多个正态随机值;其中,所述多个局部敏感哈希函数与所述多个正态随机值一一对应;根据所述多个局部敏感哈希函数以及所述多个正态随机值,得到多个稳定局部哈希敏感函数;根据所述多个稳定局部哈希敏感函数对所述高维数据集进行计算,得到与所述高维数据集中每条数据对应的投影数据点坐标;根据所述投影数据点坐标,确定所述高维数据集中每条数据在所述低维空间中的位置,进而得到低维数据集。3.根据权利要求1所述的方法,其特征在于,所述高维数据集与所述索引文件的加密方法均为AES算法。4.根据权利要求1所述的方法,其特征在于,所述利用所述PM#树对所述高维数据集建立索引,得到索引文件,包括:确定所述索引文件中的中枢点数量N;随机从所述高维数据集选出K组预设中枢点集合,其中,每组所述预设中枢点集合包括N个节点;分别计算所述K组预设中枢点集合中任意两个节点之间的多个欧式距离,并对所述多个欧式距离求和,得到K组预设中枢点集合的K个欧式距离;获取所述K个欧式距离中的最大值,以及获取最大值对应的所述预设中枢点集合,将最大值对应的所述预设中枢点集合作为索引文件中枢点集合;将所述索引文件中枢点集合中的节点作为所述索引文件的非叶节点;利...

【专利技术属性】
技术研发人员:常曌刘琦程珂沈玉龙马鑫迪张涛
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1