当前位置: 首页 > 专利查询>东北大学专利>正文

基于Spark与Huffman编码的CPIR‑V最近邻隐私保护查询方法技术

技术编号:16456444 阅读:28 留言:0更新日期:2017-10-25 20:51
本发明专利技术公开了一种基于Spark与Huffman编码的CPIR‑V最近邻隐私保护查询方法,将最近邻矩阵的数据使用Huffman编码进行压缩减少每个网格中的数据Bit位数;然后将压缩的数据,字符的码长以及元素最大值存储到空数据库HBase中;接着服务器端读取读取HBase数据库中的数据并缓存到Spark并行框架的RDD中,并根据并行策略对RDD中的CPIR最近邻矩阵进行分组,分组后Spark服务端根据查询信息进行CPIR并行计算,将每个分组的计算结果聚合然后将查询结果和字符码长发送给客户端;客户端将查询结果解析获得查询位的值,将查询位的值解压,得到查询信息。本发明专利技术基于Spark并行化和Huffman编码的隐私保护查询算法,保证在大数据应用场景下,保护用户的查询隐私并在原有的查询效果下提高查询效率。

Spark and Huffman encoding CPIR V nearest neighbor query method based on privacy protection

The invention discloses a Spark and Huffman encoding CPIR V privacy protection method based on nearest neighbor query, nearest neighbor matrix data using the Huffman encoding for Bit data compression to reduce the number of bits in each grid; then the data will be compressed, the character code length and the maximum storage element to an empty database in HBase; then the server reads the HBase to read the data in the database and cache to Spark parallel framework RDD, and according to the parallel strategy of RDD CPIR in the nearest neighbor matrix were grouped according to the query information of Spark server in CPIR parallel computing, the calculation results of each packet and then aggregation query results and the character code sent to long client; client will query results to obtain the analytical value of a query, query the value of decompression, get the query information. The method based on Spark parallelization and Huffman encoding privacy protection query algorithm ensures that the query privacy of users is protected and the query efficiency is improved under the original query effect in the large data application scenarios.

【技术实现步骤摘要】
基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法
本专利技术涉及通信网络
,尤其涉及一种基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法。
技术介绍
伴随着移动设备的不断发展与生产,多样的定位手段以及多种通讯方式的出现,由于多样的定位技术的产生,移动终端的普及以及通信设备的广泛使用,以基于位置服务(LBS)为代表的移动应用已经步入移动大数据时代。而处理日益增长的数据量仅依靠现有的PC和服务器的组织架构的计算能力是无法满足的,但是如果通过升级硬件设备来提升计算能力则会浪费大量的财力和物力,也无法获取到有效地水平扩展性和可维护性。因此在节省成本,提高水平扩展性和可维护性方面做了很大的研究,Google公司在搜索引擎大会(SESSanJose2006)首次提出“云计算”(CloudComputing)的概念。云计算是一种并行计算,它通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。云计算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。云平台为移动大数据的处理提供了良好的平台,将传统的LBS应用和LBS隐私保护技术移到云平台上已经是LBS应用技术和隐私保护技术发展趋势并且目前已经成为了研究热点之一。在大数据时代,通过对大数据进行分析、归纳、挖掘进而从中获取潜在的信息,这些潜在信息可以帮组企业和商家获得巨大收益,比如调整市场政策、减少和规避风险、理性面对市场变化做决策等等。然而,随着对大数据进行挖掘的技术不断出现和完善,在挖掘潜在信息的同时也有可能存在着泄露个人隐私的危险,以至于严重威胁到个人信息安全以及企业的商业机密,国家的安全机密等等。随着大数据应用的发展和普及,个人的隐私保护显得尤为重要并且将成为一大严峻挑战。目前隐私保护研究方向主要分为三类:基于泛化的隐私保护技术、基于加密的隐私保护技术和基于干扰的隐私保护技术,其中基于加密的隐私保护技术主要代表有基于计算的私有信息检索(Computionalprivateinformationretrieval,CPIR)。CPIR是基于二次剩余的难解问题,表明在一个大复合模量(通常是1024bit)的模运算中,区分二次剩余是难计算的问题。CPIR算法大大降低了通信复杂度,但也提高了计算的复杂度,保证了最强的隐私保护程度。但是,LBS隐私保护会涉及到大量的计算操作和复杂的变换操作,CPIR算法计算时需要扫描全部的数据空间使得计算量大且计算时间长,这使得传统计算平台的计算能力已经无法满足现有的需求。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法,减少CPIR计算代价,进一步提高性能。为了解决
技术介绍
中所存在的问题,本专利技术的技术方案为:一种基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法,包括:1)、将文件处理,得到网格,读取文件中网格的最近邻矩阵数据;2)、对最近邻矩阵数据中的元素使用Huffman编码进行压缩,减少所述元素的Bit位数;3)、将编码后的最近邻矩阵数据存储到空间数据库HBase中;4)、接收客户端数据查询信息后,服务器端根据数据查询信息以及从数据库HBase中读取对应的查询信息存储到Spark并行框架的RDD中,并根据并行策略对RDD中的CPIR最近邻矩阵进行分组,Spark根据查询信息进行CPIR并行计算,将每个分组的计算结果聚合然后将查询结果和字符码长发送给客户端;5)、客户端将查询结果解析获得查询位的值,将查询位的值解压,得到查询信息。所述步骤1)将文件处理,得到网格,读取文件中网格的最近邻矩阵数据包括:根据文件中空间数据的兴趣点划分Voronoi图,然后通过Voronoi图对空间数据进行划分得到Voronoi格,然后对Voronoi格进行网格划分,统计网格潜在最近邻数目,最后得到网格的最近邻矩阵。所述步骤2)具体包括:2.1、创建一个一维整数数组,将最近邻矩阵按字符读取,统计字符出现的频数并且字符的频数存储数组中,并且结束字符的频数为矩阵元素的总和;2.2、计算每个字符的频率,按照字符频率从小到大的顺序构造优先队列;2.3、利用优先队列构造哈夫曼树,并对哈夫曼树中的字符编码并将码长存入数组;2.4、将最近邻矩阵中每个元素重新编码并在元素编码后额外加入结束字符编码存入编码链表,统计每个元素编码完后Bit位数存入数组;2.5、根据每个元素编码后的Bit位数求出最大Bit位数;2.6、将编码链表中的每个元素按照最大Bit位数补全不足的Bit位数。所述步骤2.6包括先在待补位元素中,补上结束字符并,再全补零。所述步骤3)具体包括:3.1、将最近邻矩阵压缩后的数据存入二维字节数组中,其中一维表示最近邻矩阵元素的总数,二维表示元素的最大字节值;3.2、对HBase数据库的RowKey进行设计,将最近邻矩阵每一行的行号逆序作为HBase的RowKey,使得编码后的最近邻矩阵数据在HBase的HRegionServer上均匀分布;3.3、列按照列号对其存储,其值为每一行对应列号的网格中的元素,并将字符压缩后的码长存储到数据库中。所述客户端数据查询信息包括:根据查询点所在的位置计算查询点所在的网格,然后根据查询点所在的网格生成对应的二次剩余查询,最后将查询和网格划分大小以及选择的并行策略发送给服务端。所述步骤4)包括:接收从客户端发送的查询,网格划分数目和并行策略,根据网格划分数据从数据库HBase中读取对应的CPIR最近邻矩阵、字符码长和最大值存储到Spark的RDD中,接着根据客户端发送的并行策略对RDD中的CPIR最近邻矩阵进行分组,分完组以后Spark根据查询Q进行CPIR并行计算,最后获得计算结果,Spark将每个分组的计算结果聚合然后将查询结果和字符码长发送给客户端。所述根据客户端发送的并行策略对RDD中的CPIR最近邻矩阵进行分组包括基于Row级分组和基于Bit级分组:所述基于Row级分组则对CPIR矩阵按照行进行分组;所述基于Bit级分组则先获取集群目前分配的CPU的数量k,根据CPU的数据对CPIR矩阵每一行的数据进行分组。所述步骤5)包括:接收服务端返回结果和字符码长,对结果进行二次剩余的计算,并获得查询位的值,将查询位的值进行解压计算,获得正确的查询结果。与现有技术相比较,本专利技术的有益效果为:本专利技术提供了一种基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法,通过利用Huffman编码对数据进行压缩减少数据量从而减少CPIR的计算量,服务端进行CPIR计算时,采用Spark框架进行并行计算从而降低计算时间,解决计算时间长的问题。本专利技术基于Spark并行化和Huffman编码的隐私保护查询算法,保证在大数据应用场景下,保护用户的查询隐私并在原有的查询效果下提高查询效率。附图说明图1是本专利技术基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法流程图;图2是本专利技术Voronoi图的网格划分示意图;图3是本专利技术不同网格本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201710536073.html" title="基于Spark与Huffman编码的CPIR‑V最近邻隐私保护查询方法原文来自X技术">基于Spark与Huffman编码的CPIR‑V最近邻隐私保护查询方法</a>

【技术保护点】
一种基于Spark与Huffman编码的CPIR‑V最近邻隐私保护查询方法,其特征在于,包括:1)、将文件处理,得到网格,读取文件中网格的最近邻矩阵数据;2)、对最近邻矩阵数据中的元素使用Huffman编码进行压缩,减少所述元素的Bit位数;3)、将编码后的最近邻矩阵数据存储到空间数据库HBase中;4)、接收客户端数据查询信息后,服务器端根据数据查询信息以及从数据库HBase中读取对应的查询信息存储到Spark并行框架的RDD中,并根据并行策略对RDD中的CPIR最近邻矩阵进行分组,Spark根据查询信息进行CPIR并行计算,将每个分组的计算结果聚合然后将查询结果和字符码长发送给客户端;5)、客户端将查询结果解析获得查询位的值,将查询位的值解压,得到查询信息。

【技术特征摘要】
1.一种基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法,其特征在于,包括:1)、将文件处理,得到网格,读取文件中网格的最近邻矩阵数据;2)、对最近邻矩阵数据中的元素使用Huffman编码进行压缩,减少所述元素的Bit位数;3)、将编码后的最近邻矩阵数据存储到空间数据库HBase中;4)、接收客户端数据查询信息后,服务器端根据数据查询信息以及从数据库HBase中读取对应的查询信息存储到Spark并行框架的RDD中,并根据并行策略对RDD中的CPIR最近邻矩阵进行分组,Spark根据查询信息进行CPIR并行计算,将每个分组的计算结果聚合然后将查询结果和字符码长发送给客户端;5)、客户端将查询结果解析获得查询位的值,将查询位的值解压,得到查询信息。2.根据权利要求1基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法,其特征在于,所述步骤1)将文件处理,得到网格,读取文件中网格的最近邻矩阵数据包括:根据文件中空间数据的兴趣点划分Voronoi图,然后通过Voronoi图对空间数据进行划分得到Voronoi格,然后对Voronoi格进行网格划分,统计网格潜在最近邻数目,最后得到网格的最近邻矩阵。3.根据权利要求1基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法,其特征在于,所述步骤2)具体包括:2.1、创建一个一维整数数组,将最近邻矩阵按字符读取,统计字符出现的频数并且字符的频数存储数组中,并且结束字符的频数为矩阵元素的总和;2.2、计算每个字符的频率,按照字符频率从小到大的顺序构造优先队列;2.3、利用优先队列构造哈夫曼树,并对哈夫曼树中的字符编码并将码长存入数组;2.4、将最近邻矩阵中每个元素重新编码并在元素编码后额外加入结束字符编码存入编码链表,统计每个元素编码完后Bit位数存入数组;2.5、根据每个元素编码后的Bit位数求出最大Bit位数;2.6、将编码链表中的每个元素按照最大Bit位数补全不足的Bit位数。4.根据权利要求3基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法,其特征在于,所述步骤2.6包括先在待补位元素中,补上结束字符并,再全补零。5.根据权利要求...

【专利技术属性】
技术研发人员:王波涛王国仁陈月梅李昂岳春成
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1