一种基于潜层语义分析的安全的文档相似性计算方法和系统技术方案

技术编号:18913405 阅读:31 留言:0更新日期:2018-09-12 02:55
本发明专利技术涉及一种基于潜层语义分析的安全的文档相似性计算方法和系统。该方法在不泄露敏感词项的前提下,需进行文档相似性计算的双方借助私有的集合交集计算协议进行全局向量空间的约定;然后双方基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。本发明专利技术在约定全局向量空间时,可以保证不暴露一方的敏感词项给另一方;在使用同态加密技术在两方之间进行基于潜层语义分析的文档相似性计算时,不会泄露各自的文档向量。本发明专利技术在保证计算的安全性同时,能够提高文档相似计算的准确率与效率。

A secure document similarity computing method and system based on latent layer semantic analysis

The invention relates to a secure document similarity calculation method and system based on latent layer semantic analysis. Without revealing the sensitive words, the two sides of document similarity computation need to use the private set intersection computation protocol to convey the global vector space, and then based on the latent semantic analysis model and homomorphic encryption technology, the two sides carry out the secure document similarity calculation based on vector. When the global vector space is prescribed, the invention can ensure that the sensitive words of one party are not exposed to the other party, and the document vectors of the two parties are not disclosed when the document similarity calculation based on the latent semantic analysis is carried out by using the homomorphic encryption technology. The invention can ensure the safety of computation while improving the accuracy and efficiency of document similarity calculation.

【技术实现步骤摘要】
一种基于潜层语义分析的安全的文档相似性计算方法和系统
本专利技术属于信息
,具体涉及一种基于潜层语义分析的安全的文档相似性计算方法和系统。
技术介绍
文档相似性计算作为智能数据处理的一项基础技术,在信息检索、文本分类聚类等应用中发挥着关键作用,传统的文档相似性计算,如向量空间模型、Shingling模型和潜层语义分析模型(Latentsemanticanalysis)等,在以上应用中得到了广泛使用。但这些传统的技术,在计算文档相似性时并未考虑保护参与计算的文档内容的安全性,所以在需要保护参与计算的敏感文档内容的应用场景中并不适用。近些年,已有一些关于安全的文档相似性计算的研究工作,主要分作两条技术路线:一种是将文档表示成指纹集合的形式后使用安全的集合相似性计算获得文档间的相似性,这种方法可以较好地衡量文档间的局部相似性,例如在剽窃检测中检测相同的句子或者段落等;另一种是将文档表示成向量的形式,然后借助安全的向量相似性计算获得文档间的相似性,这种方法可以较好地衡量文档间的全局相似性,例如在信息检索中,检测两个文档共有的词项分布情况。当前的基于向量的安全的文档相似性计算方法,大多使用向量空间模型(VectorSpaceModel,VSM)来表示文档,然后借助同态加密(HomomorphicEncryption)技术,进行向量间的相似性计算,进而获得文档间的相似性。现有的这些使用向量空间模型进行安全的文档相似性计算的方法,由于向量空间模型不能捕捉一词多义或一义多词,所以在衡量文档相似性时还有提升的空间;并且参与计算的向量维度通常很高,进而导致计算的复杂度非常高。
技术实现思路
本专利技术旨在提出一种基于潜层语义分析的安全的文档相似性计算方法和系统,在保证不泄露各自私有数据的前提下,计算一篇文档与一个文档集之间的全局相似性,在提高全局相似性计算效率的同时,降低计算的复杂度。本专利技术采用的技术方案如下:一种基于潜层语义分析的安全的文档相似性计算方法,其特征在于,包括以下步骤:1)在不泄露敏感词项的前提下,需进行文档相似性计算的双方借助私有的集合交集计算协议进行全局向量空间的约定;2)双方基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。进一步地,计算第一方的一篇文档q与第二方的一个文档集D之间的全局相似性时,步骤1)将第二方的词项空间V作为全局的向量空间W,并将W分作两部分:U∩V和V-U∩V,其中U是第一方的词项空间。进一步地,步骤1)包括:1-1)使用私有的集合交集计算协议计算U∩V,计算完成后,双方均只能知道U∩V的内容;1-2)第二方根据V和U∩V计算得到V-U∩V;第一方的文档集中不存在V-U∩V的词项,其对应项填充0;1-3)在第二方的敏感信息不暴露给第一方的情况下,第一方将自己的文档q表示成向量第二方将自己的文档集D表示成词项-文档矩阵B。进一步地,步骤2)进行文档相似性计算的过程包括:1)第二方使用奇异值分解对B进行操作,获得B的k阶逼近矩阵;2)第一方使用同态加密方法进行加密计算,然后将加密后的文档向量发送给第二方;3)第二方接收加密后的文档向量在密文空间对该文档向量进行降维,最终获得加密后的降维向量并将发送给第一方;4)第一方接收加密后的降维向量解密得到对进行归一化处理;然后将归一化后的降维向量再进行同态加密得到将发送给第二方;5)第二方接收在密文空间计算即可得到和文档集D的m个加密相似度结果其中m是文档集D的数量,并将发回给第一方;6)第一方解密最终得到文档q和文档集D的m个相似度数值。一种基于潜层语义分析的安全的文档相似性计算系统,包括第一计算机装置和第二计算机装置;第一计算机装置中存储第一文档集,第二计算机装置中存储第二文档集;第一计算机装置和第二计算机装置在不泄露敏感词项的前提下,借助私有的集合交集计算协议进行全局向量空间的约定,然后基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。本专利技术主要包含以下关键点:1)在不泄露对方敏感词项的前提下,借助私有的集合交集计算协议,进行全局向量空间的约定;2)基于潜层语义分析模型,并借助同态加密技术,进行基于向量的安全的文档相似性计算协议的设计,在保证计算的安全性同时,提高文档相似计算的准确率与效率。本专利技术将潜层语义分析应用到了安全的文档相似性计算中来,具有以下优点:1)使用该专利技术进行安全的文档相似性计算时,可以保护参与计算的双方文档内容的安全性。具体包含两个方面,首先,在约定全局向量空间时,本专利技术的方案可以保证不暴露一方的敏感词项给另一方;其次,使用同态加密技术在两方之间进行基于潜层语义分析的文档相似性计算时,不会泄露各自的文档向量。2)使用潜层语义分析模型进行安全的文档相似性计算,提高了全局相似性计算的准确率。3)使用潜层语义分析模型进行安全的文档相似性计算,提高了相似性计算的效率。附图说明图1是本专利技术的全局向量空间示意图。图2是本专利技术与现有的基于向量空间模型的方案的准确率对比图。图3是本专利技术与现有的基于向量空间模型的方案的计算效率对比图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步详细说明。本专利技术能够在保证不泄露各自私有数据的前提下,计算Alice的一篇文档q与Bob的一个文档集D之间的全局相似性,在提高全局相似性计算效率的同时,降低计算的复杂度。本专利技术基于同态加密技术,首次将潜层语义分析模型应用到安全的文档相似性计算中。本专利技术的方案主要包含两步,首先需要计算的双方约定全局向量空间,接下来双方就可以基于同态加密和潜层语义分析进行向量间的安全的相似度计算。1.约定全局向量空间因为降维操作主要基于Bob的文档集生成的词频-文档矩阵,所以将采用Bob的词项空间V作为全局的向量空间W。但V中可能存在许多Alice中不存在的词项,并且这些词项可能包含敏感信息,直接将其暴露给Alice就会泄露Bob的私有信息。为了防止这种情况发生,本专利技术将W分作两部分,U∩V和V-U∩V(如图1所示),U是Alice的词项空间。先使用私有的集合交集计算协议计算U∩V,当计算完成后,双方均只能知道U∩V的内容。然后Bob可以根据V和U∩V计算得到V-U∩V,而Alice不需要知道V-U∩V的内容,因为在Alice的文档集中不存在V-U∩V的词项,所以对应项只需要填充0即可。最终在Bob的敏感信息不会暴露给Alice的情况下,Alice可以将自己的文档q表示成向量Bob也可以将自己的文档集D表示成词项-文档矩阵B。上述私有的集合交集计算协议可采用现有技术实现。2.进行相似度计算接下来双方就可以基于同态加密和潜层语义分析进行向量间的安全的相似度计算,具体步骤如下:1)Bob使用奇异值分解对B进行操作,获得B的k阶逼近矩阵然后计算得到和其中i=1,2,…,n并且j=1,2,…,k,n表示文档集中词项的数量,R表示一个中间变量,Uk表示k阶逼近的词项矩阵,Σk表示k阶逼近的奇异值矩阵,Vk表示k阶逼近的文档矩阵;2)Alice使用同态加密方法进行加密计算:其中i=1,2,…,n,表示加密后的文档向量,Epk表示加密计算函数,表示明文的文档向量,然后将发送给Bob;3)B本文档来自技高网
...

【技术保护点】
1.一种基于潜层语义分析的安全的文档相似性计算方法,其特征在于,包括以下步骤:1)在不泄露敏感词项的前提下,需进行文档相似性计算的双方借助私有的集合交集计算协议进行全局向量空间的约定;2)所述双方基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。

【技术特征摘要】
1.一种基于潜层语义分析的安全的文档相似性计算方法,其特征在于,包括以下步骤:1)在不泄露敏感词项的前提下,需进行文档相似性计算的双方借助私有的集合交集计算协议进行全局向量空间的约定;2)所述双方基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。2.如权利要求1所述的方法,其特征在于,计算所述双方中第一方的一篇文档q与第二方的一个文档集D之间的全局相似性时,步骤1)将第二方的词项空间V作为全局的向量空间W,并将W分作两部分:U∩V和V-U∩V,其中U是第一方的词项空间。3.如权利要求2所述的方法,其特征在于,步骤1)包括:1-1)使用私有的集合交集计算协议计算U∩V,计算完成后,双方均只能知道U∩V的内容;1-2)第二方根据V和U∩V计算得到V-U∩V;第一方的文档集中不存在V-U∩V的词项,其对应项填充0;1-3)在第二方的敏感信息不暴露给第一方的情况下,第一方将自己的文档q表示成向量第二方将自己的文档集D表示成词项-文档矩阵B。4.如权利要求3所述的方法,其特征在于,步骤2)进行文档相似性计算的过程包括:1)第二方使用奇异值分解对B进行操作,获得B的k阶逼近矩阵;2)第一方使用同态加密方法进行加密计算,然后将加密后的文档向量发送给第二方;3)第二方接收加密后的文档向量在密文空间对该文档向量进行降维,最终获得加密后的降维向量并将发送给第一方;4)第一方接收加密后的降维向量解密得到对进行归一化处理;然后将归一化后的降维向量再进行同态加密得到将发送给第二方;5)第二方接收在密文空间计算即可得到和文档集D的m个加密相似度结果其中m是文档集D的数量,并将发回给第一方;6)第一方解密最终得到文档q和文档集D的m个相似度数值。5.如权利要求1至4中任一权利要求所述的方法,其特征在于,通过约定全局向量空间,保证不暴露一方的敏感词项给另一方;通过使用同态加密技术在两方之间进行基于潜层语义分析的文档相似性计算,保证不泄露各自的文档向量。6.一种基于潜层语义分析的安全的文档相似性计算系统,其特征在于,包括第一计算机装置和第二计算机装置;第一计算机装置中存储第一文档集,...

【专利技术属性】
技术研发人员:陈小军于晓杰时金桥申立艳王大魁胡兰兰
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1