一种海量图像检索的隐私保护索引生成方法技术

技术编号:10367286 阅读:185 留言:0更新日期:2014-08-28 11:10
本发明专利技术公开一种海量图像检索的隐私保护索引生成方法,涉及海量图像检索中的隐私保护问题,将隐私保护融入到图像检索中,本发明专利技术方法建立一种具有隐私保护的图像索引,在保证检索性能的同时,保护用户隐私信息的安全。本发明专利技术首先,提取并优化尺度不变特征转换SIFT和HSV颜色直方图,采用局部保持投影的流形降维方法对特征进行降维,并将降维后的特征数据用于构建词汇树。利用词汇树建立倒排索引结构,本发明专利技术不仅减少了特征的个数,提高了明文域图像检索的速度,更优化了图像检索的性能。本发明专利技术在明文域检索框架的基础上加入隐私保护,利用二元随机编码和随机投影对倒排索引进行双重加密,实现了具有隐私保护的图像索引。

【技术实现步骤摘要】
一种海量图像检索的隐私保护索引生成方法
本专利技术涉及海量图像检索中的隐私保护问题,将隐私保护融入到图像检索中,旨在建立一种具有隐私保护的图像索引,在保证检索性能的同时,保护用户隐私信息的安全。
技术介绍
随着现代信息技术的飞速发展,特别是近年来云计算、社交媒体等大规模新型应用的不断推广,图像/视频等数据量迅猛增长。作为对图像/视频资源进行合理利用和有效管理的重要手段,基于内容的海量图像检索技术(CBIR,Content-basedImageRetrieval)也因此成为目前图像检索领域的研究热点。但是,现有的图像搜索技术所关注的是如何设计有效的机制来提高检索的性能,而往往忽略了用户隐私信息的保护等安全性问题。实际上,在各种图像/视频数据中,尤其是社交网络产生的大数据中,包含了各种各样的用户隐私信息,这些隐私信息的泄漏将会给用户带来无法估量的负面影响。存储在服务器端的用户隐私数据通常会受到不可信赖的管理操作或恶意入侵者的攻击,存在着被窃取、泄漏和篡改的巨大风险。为了阻止在图像检索、图像传输和共享过程中频发的侵权行为,需要一种行之有效的隐私保护手段来保证图像信息的安全性,使得用户能够进行安全的检索,保证图像隐私信息的安全性。数据加密是一种非常常用、且有效的安全保护措施。很显然,加密虽然可以保证图像内容的安全,但是现有的图像检索技术无法对加密后的图像直接进行检索。因此,如何设计有效的隐私保护检索机制,在保证用户隐私信息不泄露的情况下,准确、快速地检索出用户感兴趣的图像就成为目前图像搜索技术需要重点解决的一个问题。在基于隐私保护的海量图像检索技术中,需要同时考虑两个方面的因素:(1)保护图像内容的安全性和隐私性;(2)建立面向海量图像的、可供查询的安全索引,既保证检索的安全性,又满足图像检索速度的需求。图像内容的安全保护可以通过成熟的加密算法来实现,例如高级加密标准(AES,AdvancedEncryptionStandard)和RSA(Rivest,ShamirandAdleman)公钥加密算法均可以对图像进行加密,保护图像内容的安全性和隐私性。本专利技术将加密技术与图像检索结合起来,提出了一种海量图像检索的隐私保护索引生成方法,该方法可以生成具有隐私保护的图像索引,在保证检索性能的同时,保证检索的安全性和隐私性,满足海量图像检索在安全性和速度上的需求。
技术实现思路
本专利技术的目的在于,提出了一种海量图像检索的隐私保护索引生成方法。首先,提取并优化SIFT(ScaleInvariantFeatureTransform)特征和HSV(Hue,SaturationandValue)直方图,采用局部保持投影(LPP,LocalityPreservingProjections)的流形降维方法对特征进行降维后,并将降维后的特征数据用于构建词汇树。利用词汇树建立倒排索引结构,这种方法不仅减少了特征的个数,提高了明文域图像检索的速度,更优化了图像检索的性能。接下来,本专利技术在明文域检索框架的基础上加入隐私保护,利用二元随机编码和随机投影对倒排索引进行双重加密,实现了具有隐私保护的图像索引。本专利技术的具体实现框架如图1所示。本专利技术采用以下技术手段实现:一种海量图像检索的隐私保护索引生成方法,包括:尺度不变特征转换SIFT和HSV颜色直方图的提取和优化、局部保持投影LPP降维、词汇索引构建以及隐私保护索引生成,其特征在于包括如下步骤:步骤1:SIFT特征和HSV直方图特征的提取和优化,构建图像特征库;步骤1.1:提取SIFT特征;步骤1.2:对SIFT进行合理优化:对SIFT描述符集中的区域进行优化整合,以较少数量的描述符对图像内容进行准确的表征,设定图像中第i个SIFT描述符的横纵坐标分别为Siftdes[i].x,Siftdes[i].y,优化阈值为Topt,优化范围为Ropt;对于任意两个不同的SIFT描述符Siftdes[i]与Siftdes[j],当两点的横坐标和纵坐标的距离均小于优化阈值Topt时,则表示这些点存在于需要优化的范围Ropt内,需要进行优化操作,即:将存在于Ropt内的所有特征点合并成一个特征点,以它们的均值代表该范围内的所有特征点;如果该两点的横坐标距离或者纵坐标距离大于优化阈值Topt时,则表示这些点无需进行优化,优化方法如下:优化后的SIFT特征点个数明显减少,提高检索速度;步骤1.3:提取HSV颜色直方图特征;步骤1.4:利用SIFT特征和HSV直方图特征共同形成图像特征库;步骤2:利用LPP对图像特征进行降维;步骤2.1:构建邻接图,计算图上每个点x的k最邻域点,计算每条边的权重Wij,不相连的边权重为0,否则为1,计算特征向量方法如下:XLpXTa=λXDdiaXTa(2)其中,图像特征X∈RD×N,N为样本个数,每个样本有D维特征,Ddia是对角矩阵,Dii=∑jWji;Lp=Ddia-W,Lp是半正定的拉普拉斯矩阵,W是由权重Wij构成的稀疏对称矩阵;步骤2.2:依据约束条件aTXDdiaXTa=1,计算最小化函数,方法如下:其中,前d个最小的非零特征值对应的特征向量即为投影矩阵;步骤2.3:利用投影矩阵A={ai}∈RD×d(d<D,ai≠0),找到数据的低维嵌入表示,方法如下:Y=ATX(4)其中,Y即为降维后的特征向量;步骤3:词汇树索引的构建;步骤3.1:随机的选取K个初始聚类中心Ci;步骤3.2:使用分层K-means,计算聚类中心Ci与每个特征点的距离,并把与聚类中心距离最小的点归到以Ci为聚类中心的类中;步骤3.3:重新计算每个聚类中心Ci;步骤3.4:计算判断聚类中心Ci与所属以Ci为聚类中心的类的特征点之间的距离是否满足收敛阈值,如果不满足,则重复步骤2、步骤3,直到满足收敛阈值且聚类中心不再发生变化;步骤3.5:继续对聚类得到的K个簇集利用K-means算法聚类,再分成K个簇集,重复步骤3.1-步骤3.4,直至达到词汇树的高度L时,停止聚类,形成特征词汇树,其中K=10,L=3;步骤3.6:统计每个特征点的词频-倒排文件频率TF-IDF加权,其中TF表示的是词频,词汇树中的节点i,对每一个视觉单词Ci,查询图像和数据库中图像通过节点i的特征数分别为qi和di,IDF计算方法如下:其中,N是图像库的图像总数,Ni是包含节点i的图像的数量,查询图像的索引向量为Qi=qiwi,数据库中图像的索引向量表示为Di=diwi;步骤4:隐私保护索引的生成;步骤4.1:将数据库的索引F={fi}放大1,000,000倍,四舍五入成为整数,找到最大的整数,将倒排索引利用二进制数表示,方法如下:其中fimax为最大的整数索引,Digmax为二进制的最大位数;步骤4.2:将所有整数形式的索引表示为二进制数,将位数不足Digmax的二进制数前补零,方法如下:其中Digi表示的是b(fi)的二进制位数;步骤4.3:将所有整数依次提取b(fi)的n个bit位,将b(fi)重新排列为新的向量,方法如下:b(fi)=[b(fi1),b(fi2),...,b(fim)](9)其中m=Digmax/n,经过二元随机编码的倒排索引表示为其中N是图像的数量,dnew是经过二元随机编码后,新索引的维本文档来自技高网
...
一种海量图像检索的隐私保护索引生成方法

【技术保护点】
一种海量图像检索的隐私保护索引生成方法,包括:尺度不变特征转换SIFT和HSV颜色直方图的提取和优化、局部保持投影LPP降维、词汇索引构建以及隐私保护索引生成,其特征在于包括如下步骤:步骤1:SIFT特征和HSV直方图特征的提取和优化,构建图像特征库;步骤1.1:提取SIFT特征;步骤1.2:对SIFT进行合理优化:对SIFT描述符集中的区域进行优化整合,以较少数量的描述符对图像内容进行准确的表征,设定图像中第i个SIFT描述符的横纵坐标分别为Siftdes[i].x,Siftdes[i].y,优化阈值为Topt,优化范围为Ropt;对于任意两个不同的SIFT描述符Siftdes[i]与Siftdes[j],当两点的横坐标和纵坐标的距离均小于优化阈值Topt时,则表示这些点存在于需要优化的范围Ropt内,需要进行优化操作,即:将存在于Ropt内的所有特征点合并成一个特征点,以它们的均值代表该范围内的所有特征点;如果该两点的横坐标距离或者纵坐标距离大于优化阈值Topt时,则表示这些点无需进行优化,优化方法如下:优化后的SIFT特征点个数明显减少,提高检索速度;步骤1.3:提取HSV颜色直方图特征;步骤1.4:利用SIFT特征和HSV直方图特征共同形成图像特征库;步骤2:利用LPP对图像特征进行降维;步骤2.1:构建邻接图,计算图上每个点x的k最邻域点,计算每条边的权重Wij,不相连的边权重为0,否则为1,计算特征向量方法如下:XLpXTa=λXDdiaXTa其中,图像特征X∈RD×N,N为样本个数,每个样本有D维特征,Ddia是对角矩阵,Dii=∑jWji;Lp=Ddia‑W,Lp是半正定的拉普拉斯矩阵,W是由权重Wij构成的稀疏对称矩阵;步骤2.2:依据约束条件aTXDdiaXTa=1,计算最小化函数,方法如下:argmina=aTXLpXTa]]>其中,前d个最小的非零特征值对应的特征向量即为投影矩阵;步骤2.3:利用投影矩阵A={ai}∈RD×d(d<D,ai≠0),找到数据的低维嵌入表示,方法如下:Y=ATX其中,Y即为降维后的特征向量;步骤3:词汇树索引的构建;步骤3.1:随机的选取K个初始聚类中心Ci;步骤3.2:使用分层K‑means,计算聚类中心Ci与每个特征点的距离,并把与聚类中心距离最小的点归到该类中;步骤3.3:重新计算每个聚类中心Ci;步骤3.4:计算判断聚类中心Ci与所属该类的特征点之间的距离是否满足收敛阈值,如果不满足,则重复步骤2、步骤3,直到满足收敛阈值且聚类中心不再发生变化;步骤3.5:继续对聚类得到的K个簇集利用K‑means算法聚类,再分成K个簇集,重复步骤3.1‑步骤3.4,直至达到词汇树的高度L时,停止聚类,形成特征词汇树,其中K=10,L=3;步骤3.6:统计每个特征点的词频‑倒排文件频率TF‑IDF加权,其中TF表示的是词频,词汇树中的节点i,对每一个视觉单词Ci,查询图像和数据库中图像通过节点i的特征数分别为qi和di,IDF计算方法如下:IDF=logNNi=ωi]]>其中,N是图像库的图像总数,Ni是包含节点i的图像的数量,查询图像的索引向量为Qi=qiwi,数据库中图像的索引向量表示为Di=diwi;步骤4:隐私保护索引的生成;步骤4.1:将数据库的索引F={fi}放大1,000,000倍,四舍五入成为整数,找到最大的整数,将该倒排索引利用二进制数表示,方法如下:其中fimax为最大的整数索引,Digmax为二进制的最大位数;步骤4.2:将所有整数形式的索引表示为二进制数,将位数不足Digmax的二进制数前补零,方法如下:其中Digi表示的是b(fi)的二进制位数;步骤4.3:将所有整数依次提取b(fi)的n个bit位,将b(fi)重新排列为新的向量,方法如下:b(fi)=[b(fi1),b(fi2),...,b(fim)]其中m=Digmax/n,经过二元随机编码的倒排索引可以表示为其中N是图像的数量,dnew是经过二元随机编码后,新索引的维度;步骤4.4:使用高斯随机投影矩阵进行随机投影,其中dnew是原始维度,d'是降维后的维度,加密函数可以定义为:ε(b(F))=b(F)·G';步骤4.5:图像的索引完成随机投影之后,利用L1范数对加密索引的距离进行度量,方法如下:dϵ(Similar)=dϵ(ϵ(b(fi)i≠j,b(fj)))=||ϵ(b(fi))-ϵ(b(fj))||1]]>步骤4.6:对相似性结果进行排序,将最终将前k幅图像返回显示给用户,方法如下:dε(Similar)=αdε(SimSIFT)+βdε(SimHSV)其中α,β分别为SIFT特征词汇树和HSV直方...

【技术特征摘要】
1.一种海量图像检索的隐私保护索引生成方法,包括:尺度不变特征转换SIFT和HSV颜色直方图的提取和优化、局部保持投影LPP降维、词汇索引构建以及隐私保护索引生成,其特征在于包括如下步骤:步骤1:SIFT特征和HSV直方图特征的提取和优化,构建图像特征库;步骤1.1:提取SIFT特征;步骤1.2:对SIFT进行合理优化:对SIFT描述符集中的区域进行优化整合,以较少数量的描述符对图像内容进行准确的表征,设定图像中第i个SIFT描述符的横纵坐标分别为Siftdes[i].x,Siftdes[i].y,优化阈值为Topt,优化范围为Ropt;对于任意两个不同的SIFT描述符Siftdes[i]与Siftdes[j],当两点的横坐标和纵坐标的距离均小于优化阈值Topt时,则表示这些点存在于需要优化的范围Ropt内,需要进行优化操作,即:将存在于Ropt内的所有特征点合并成一个特征点,以它们的均值代表该范围内的所有特征点;如果该两点的横坐标距离或者纵坐标距离大于优化阈值Topt时,则表示这些点无需进行优化,优化方法如下:优化后的SIFT特征点个数明显减少,提高检索速度;步骤1.3:提取HSV颜色直方图特征;步骤1.4:利用SIFT特征和HSV直方图特征共同形成图像特征库;步骤2:利用LPP对图像特征进行降维;步骤2.1:构建邻接图,计算图上每个点x的k最邻域点,计算每条边的权重Wij,不相连的边权重为0,否则为1,计算特征向量方法如下:XLpXTa=λXDdiaXTa其中,图像特征X∈RD×N,N为样本个数,每个样本有D维特征,Ddia是对角矩阵,Dii=∑jWji;Lp=Ddia-W,Lp是半正定的拉普拉斯矩阵,W是由权重Wij构成的稀疏对称矩阵;步骤2.2:依据约束条件aTXDdiaXTa=1,计算最小化函数,方法如下:其中,前d个最小的非零特征值对应的特征向量即为投影矩阵;步骤2.3:利用投影矩阵A={ai}∈RD×d(d<D,ai≠0),找到数据的低维嵌入表示,方法如下:Y=ATX其中,Y即为降维后的特征向量;步骤3:词汇树索引的构建;步骤3.1:随机的选取K个初始聚类中心Ci;步骤3.2:使用分层K-means,计算聚类中心Ci与每个特征点的距离,并把与聚类中心距离最小的点归到以Ci为聚类中心的类中;步骤3.3:重新计算每个聚类中心Ci;步骤3.4:计算判断聚类中心Ci与所属以Ci为聚类中心的类的特征点之间的距离是否满足...

【专利技术属性】
技术研发人员:卓力成博白宇彭远帆张燕张菁
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1