The invention relates to a secure document similarity calculation method and system based on latent layer semantic analysis. Without revealing the sensitive words, the two sides of document similarity computation need to use the private set intersection computation protocol to convey the global vector space, and then based on the latent semantic analysis model and homomorphic encryption technology, the two sides carry out the secure document similarity calculation based on vector. When the global vector space is prescribed, the invention can ensure that the sensitive words of one party are not exposed to the other party, and the document vectors of the two parties are not disclosed when the document similarity calculation based on the latent semantic analysis is carried out by using the homomorphic encryption technology. The invention can ensure the safety of computation while improving the accuracy and efficiency of document similarity calculation.
【技术实现步骤摘要】
一种基于潜层语义分析的安全的文档相似性计算方法和系统
本专利技术属于信息
,具体涉及一种基于潜层语义分析的安全的文档相似性计算方法和系统。
技术介绍
文档相似性计算作为智能数据处理的一项基础技术,在信息检索、文本分类聚类等应用中发挥着关键作用,传统的文档相似性计算,如向量空间模型、Shingling模型和潜层语义分析模型(Latentsemanticanalysis)等,在以上应用中得到了广泛使用。但这些传统的技术,在计算文档相似性时并未考虑保护参与计算的文档内容的安全性,所以在需要保护参与计算的敏感文档内容的应用场景中并不适用。近些年,已有一些关于安全的文档相似性计算的研究工作,主要分作两条技术路线:一种是将文档表示成指纹集合的形式后使用安全的集合相似性计算获得文档间的相似性,这种方法可以较好地衡量文档间的局部相似性,例如在剽窃检测中检测相同的句子或者段落等;另一种是将文档表示成向量的形式,然后借助安全的向量相似性计算获得文档间的相似性,这种方法可以较好地衡量文档间的全局相似性,例如在信息检索中,检测两个文档共有的词项分布情况。当前的基于向量的安全的文档相似性计算方法,大多使用向量空间模型(VectorSpaceModel,VSM)来表示文档,然后借助同态加密(HomomorphicEncryption)技术,进行向量间的相似性计算,进而获得文档间的相似性。现有的这些使用向量空间模型进行安全的文档相似性计算的方法,由于向量空间模型不能捕捉一词多义或一义多词,所以在衡量文档相似性时还有提升的空间;并且参与计算的向量维度通常很高,进而导致计算的复杂度非 ...
【技术保护点】
1.一种基于潜层语义分析的安全的文档相似性计算方法,其特征在于,包括以下步骤:1)在不泄露敏感词项的前提下,需进行文档相似性计算的双方借助私有的集合交集计算协议进行全局向量空间的约定;2)所述双方基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。
【技术特征摘要】
1.一种基于潜层语义分析的安全的文档相似性计算方法,其特征在于,包括以下步骤:1)在不泄露敏感词项的前提下,需进行文档相似性计算的双方借助私有的集合交集计算协议进行全局向量空间的约定;2)所述双方基于潜层语义分析模型和同态加密技术,进行基于向量的安全的文档相似性计算。2.如权利要求1所述的方法,其特征在于,计算所述双方中第一方的一篇文档q与第二方的一个文档集D之间的全局相似性时,步骤1)将第二方的词项空间V作为全局的向量空间W,并将W分作两部分:U∩V和V-U∩V,其中U是第一方的词项空间。3.如权利要求2所述的方法,其特征在于,步骤1)包括:1-1)使用私有的集合交集计算协议计算U∩V,计算完成后,双方均只能知道U∩V的内容;1-2)第二方根据V和U∩V计算得到V-U∩V;第一方的文档集中不存在V-U∩V的词项,其对应项填充0;1-3)在第二方的敏感信息不暴露给第一方的情况下,第一方将自己的文档q表示成向量第二方将自己的文档集D表示成词项-文档矩阵B。4.如权利要求3所述的方法,其特征在于,步骤2)进行文档相似性计算的过程包括:1)第二方使用奇异值分解对B进行操作,获得B的k阶逼近矩阵;2)第一方使用同态加密方法进行加密计算,然后将加密后的文档向量发送给第二方;3)第二方接收加密后的文档向量在密文空间对该文档向量进行降维,最终获得加密后的降维向量并将发送给第一方;4)第一方接收加密后的降维向量解密得到对进行归一化处理;然后将归一化后的降维向量再进行同态加密得到将发送给第二方;5)第二方接收在密文空间计算即可得到和文档集D的m个加密相似度结果其中m是文档集D的数量,并将发回给第一方;6)第一方解密最终得到文档q和文档集D的m个相似度数值。5.如权利要求1至4中任一权利要求所述的方法,其特征在于,通过约定全局向量空间,保证不暴露一方的敏感词项给另一方;通过使用同态加密技术在两方之间进行基于潜层语义分析的文档相似性计算,保证不泄露各自的文档向量。6.一种基于潜层语义分析的安全的文档相似性计算系统,其特征在于,包括第一计算机装置和第二计算机装置;第一计算机装置中存储第一文档集,...
【专利技术属性】
技术研发人员:陈小军,于晓杰,时金桥,申立艳,王大魁,胡兰兰,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。