数据分析方法、设备以及系统技术方案

技术编号:21308777 阅读:31 留言:0更新日期:2019-06-12 10:53
本申请提供了一种数据分析方法、相关设备以及系统。所述方法由服务器执行,包括:接收客户端发送的公钥和及用公钥加密的第一数据E(A),E()为同态加密函数,A为第一数据;通过公钥对服务器中的第三数据进行加密,得到加密后的第三数据E(B),B为第三数据;根据E(A)及E(B),得到加密后的第一数据和第三数据的相似度E(sim);将加密后的第一数据和第三数据的相似度E(sim)发送至客户端进行解密,得到解密后的第一数据和第三数据的相似度sim;接收客户端发送的解密后的第一数据和第三数据的相似度sim;在sim大于预设阈值的情况下,确定第二数据和所述第四数据相似,并使用第四数据代替第二数据进行数据分析。

Data analysis methods, equipment and systems

This application provides a data analysis method, related equipment and system. The method is implemented by the server, including: receiving the public key sent by the client and encrypting the first data E(A), E() as a homomorphic encryption function, A as the first data; encrypting the third data in the server through the public key to obtain the encrypted third data E(B), B as the third data; according to E(A) and E(B), getting the similarity between the encrypted first data and the third data. Degree E (sim); Similarity E (sim) of the encrypted first and third data is sent to the client for decryption, and the similarity SIM of the decrypted first and third data is obtained; Similarity SIM of the decrypted first and third data is received from the client; Similarity SIM of the decrypted first and third data is determined when the SIM is larger than the preset threshold, and the similarity between the second and the fourth data is determined, and the fourth data is used. Four data instead of the second data for data analysis.

【技术实现步骤摘要】
数据分析方法、设备以及系统
本申请涉及数据加密领域,尤其涉及一种数据分析方法、设备以及系统。
技术介绍
信息系统在运行的过程中会产生大量的日志文件,其中,日志文件记录了信息系统在运行过程中产生的各种信息,例如,特征信息以及隐私信息,其中,特征信息可以用于进行故障诊断,隐私信息记录了用户的隐私。但是,故障信息和隐私信息通常还夹杂在一起,无法很好地区分。例如,日志文件中记载了“servicporteh2ip127.22.22.22conflict”,这条日志表明了IP地址127.22.22.22发生了冲突,其中,servicporteh2ip***conflict是特征信息,127.22.22.22是隐私信息。当信息系统出现了故障时,用户需要将日志文件发送给信息系统提供商进行故障分析。但是,如果用户将日志文件没有加密的明文发送给信息系统提供商,则会导致用户的隐私信息被泄漏,如果用户将日志文件加密后得到的密文发送给信息提供商,则会导致信息提供商无法进行故障分析。
技术实现思路
本申请提供了一种数据分析方法、设备以及系统,能够在不泄露用户隐私的情况下,将数据发送给他人进行数据分析。第一方面,提供了一种数据分析方法,由服务器执行,包括:接收客户端发送的公钥和及用所述公钥加密的第一数据E(A),其中,E()为同态加密函数,A为所述第一数据,所述第一数据为由第二数据生成的;通过所述公钥对所述服务器中的第三数据进行加密,得到加密后的第三数据E(B),其中,B为所述第三数据,所述第三数据为由第四数据生成的;根据E(A)及E(B),得到加密后的第一数据和第三数据的相似度E(sim),其中,sim为所述第一数据和所述第三数据的相似度;将所述加密后的第一数据和第三数据的相似度E(sim)发送至客户端进行解密,得到解密后的第一数据和第三数据的相似度sim;接收客户端发送的解密后的第一数据和第三数据的相似度sim;在所述解密后的第一数据和第三数据的相似度sim大于预设阈值的情况下,确定所述第二数据和所述第四数据相似,并使用第四数据代替所述第二数据进行数据分析。第二方面,提供了一种相似数据确定方法,由客户端执行,包括:向服务器发送的公钥和及用所述公钥加密的第一数据E(A),其中,E()为同态加密函数,A为所述第一数据,所述第一数据为由第二数据生成的;接收服务器发送的加密后的第一数据和第三数据的相似度E(sim),其中,sim为所述第一数据和所述第三数据的相似度,所述加密后的第一数据和第三数据的相似度E(sim)是服务器根据加密后的第一数据E(A)以及加密后的第三数据E(B)确定的,B为所述第三数据,所述第三数据为由第四数据生成的;用私钥对所述加密后的第一数据和第三数据的相似度E(sim)进行解密,得到解密后的第一数据和第三数据的相似度sim;向服务器发送解密后的第一数据和第三数据的相似度sim。通过第一方面或者第二方面,能够不需要将明文的第二数据和第四数据发送给服务器,服务器也能确定第二数据和第四数据之间的相似度,并使用不存在隐私信息的第四数据代替存在隐私信息的第四数据进行分析,从而实现了在不泄露用户隐私的情况下,将数据发送给他人进行数据分析。结合第一方面或者第二方面,在一些可能的设计中,客户端将第二数据通过语义特征提取算法转换为语义特征集合,其中,所述语义特征提取算法包括潜在语义分析LSA算法、n-gram算法中的一种或者多种;将所述语义特征集合通过转换算法转换为第一数据,其中,所述转换算法包括simhash算法。结合第一方面或者第二方面,在一些可能的设计中,服务器将第四数据通过语义特征提取算法转换为语义特征集合,其中,所述语义特征提取算法包括潜在语义分析LSA算法、n-gram算法中的一种或者多种;将所述语义特征集合通过转换算法转换为第三数据,其中,所述转换算法包括simhash算法。结合第一方面或者第二方面,在一些可能的设计中,所述加密后的第一数据E(A)包括E(a)以及E(1/|a|),其中,a为由第二数据转换的向量,1/|a|为向量a的向量长度的倒数,所述加密后的第三数据E(B)包括E(b)以及E(1/|b|),其中,b为由第四数据转换的向量,1/|b|为向量b的向量长度的倒数,根据以下公式计算所述加密后的第一数据和第三数据的相似度E(sim):E(sim)=E(a)*E(b)*E(1/|a|)*E(1/|b|)。结合第一方面或者第二方面,在一些可能的设计中,所述加密后的第一数据E(A)包括E(x1),E(x2),…,E(xn),其中,分别为x1,x2,…,xn的平方,x1,x2,…,xn为a中的n个元素,a为由第二数据转换的向量,所述第二数据E(B)包括E(y1),E(y2),…,E(yn),其中,分别为y1,y2,…,yn的平方,y1,y2,…,yn为b中的n个元素,b为由第四数据转换的向量,根据以下公式确定加密后的第一数据和第三数据的相似度E(sim):结合第一方面或者第二方面,在一些可能的设计中,所述加密后的第一数据E(A)包括其中,分别为x1,x2,…,xn的平方,x1,x2,…,xn为a中的n个元素,a为由第二数据转换的向量,所述第二数据E(B)包括其中,分别为y1,y2,…,yn的平方,y1,y2,…,yn为b中的n个元素,b为由第四数据转换的向量,根据以下公式确定加密后的第一数据和第三数据的相似度E(sim):结合第一方面或者第二方面,在一些可能的设计中,所述加密后的第一数据E(A)包括E(x1),E(x2),…,E(xn),其中,分别为x1,x2,…,xn的平方,x1,x2,…,xn为a中的n个元素,为x1,x2,…,xn的平均值,为的平方,a为由第二数据转换的向量,所述第二数据E(B)包括E(y1),E(y2),…,E(yn),其中,分别为y1,y2,…,yn的平方,y1,y2,…,yn为b中的n个元素,为y1,y2,…,yn的平均值,为的平方,b为由第四数据转换的向量,根据以下公式确定加密后的第一数据和第三数据的相似度E(sim):第三方面,提供了一种服务器,包括能够实现如第一方面任一项所述的方法的单元。第四方面,提供了一种客户端,包括能够实现如第二方面任一项所述的方法的单元。第五方面,提供了一种服务器,包括:处理器和存储器,所述处理器执行所述存储器中的代码执行如第一方面任一项所述的方法。第六方面,提供了一种客户端,包括:处理器和存储器,所述处理器执行所述存储器中的代码执行如第二方面任一项所述的方法。第七方面,提供了一种计算机非瞬态存储介质,包括指令,当所述指令在服务器上运行时,使得所述服务器执行如第一方面任一项所述的方法。第八方面,提供了一种计算机非瞬态存储介质,包括指令,当所述指令在客户端上运行时,使得所述客户端执行如第二方面任一项所述的方法。第九方面,提供了一种通信系统,其特征在于,包括服务器和客户端,其中,所述服务器和所述客户端之间可以进行通信;所述服务器用于执行如第一方面任一项所述的方法;所述客户端用于执行如第二方面任一项所述的方法。附图说明为了更清楚地说明本申请实施例或
技术介绍
中的技术方案,下面将对本申请实施例或
技术介绍
中所需要使用的附图进行说明。图1至图4是本申请实施例提供的本文档来自技高网
...

【技术保护点】
1.一种数据分析方法,其特征在于,由服务器执行,包括:接收客户端发送的公钥和及用所述公钥加密的第一数据E(A),其中,E()为同态加密函数,A为所述第一数据,所述第一数据为由第二数据生成的;通过所述公钥对所述服务器中的第三数据进行加密,得到加密后的第三数据E(B),其中,B为所述第三数据,所述第三数据为由第四数据生成的;根据E(A)及E(B),得到加密后的第一数据和第三数据的相似度E(sim),其中,sim为所述第一数据和所述第三数据的相似度;将所述加密后的第一数据和第三数据的相似度E(sim)发送至客户端进行解密,得到解密后的第一数据和第三数据的相似度sim;接收客户端发送的解密后的第一数据和第三数据的相似度sim;在所述解密后的第一数据和第三数据的相似度sim大于预设阈值的情况下,确定所述第二数据和所述第四数据相似,并使用第四数据代替所述第二数据进行数据分析。

【技术特征摘要】
1.一种数据分析方法,其特征在于,由服务器执行,包括:接收客户端发送的公钥和及用所述公钥加密的第一数据E(A),其中,E()为同态加密函数,A为所述第一数据,所述第一数据为由第二数据生成的;通过所述公钥对所述服务器中的第三数据进行加密,得到加密后的第三数据E(B),其中,B为所述第三数据,所述第三数据为由第四数据生成的;根据E(A)及E(B),得到加密后的第一数据和第三数据的相似度E(sim),其中,sim为所述第一数据和所述第三数据的相似度;将所述加密后的第一数据和第三数据的相似度E(sim)发送至客户端进行解密,得到解密后的第一数据和第三数据的相似度sim;接收客户端发送的解密后的第一数据和第三数据的相似度sim;在所述解密后的第一数据和第三数据的相似度sim大于预设阈值的情况下,确定所述第二数据和所述第四数据相似,并使用第四数据代替所述第二数据进行数据分析。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将第四数据通过语义特征提取算法转换为语义特征集合;将所述语义特征集合通过转换算法转换为第三数据,其中,所述转换算法包括simhash算法。3.根据权利要求1或2所述的方法,其特征在于,所述加密后的第一数据E(A)包括E(a)以及E(1/|a|),其中,a为由第二数据转换的向量,1/|a|为向量a的向量长度的倒数,所述加密后的第三数据E(B)包括E(b)以及E(1/|b|),其中,b为由第四数据转换的向量,1/|b|为向量b的向量长度的倒数,根据以下公式计算所述加密后的第一数据和第三数据的相似度E(sim):E(sim)=E(a)*E(b)*E(1/|a|)*E(1/|b|)。4.根据权利要求1或2所述的方法,其特征在于,所述加密后的第一数据E(A)包括E(x1),E(x2),...,E(xn),其中,分别为x1,x2,...,xn的平方,x1,x2,...,xn为a中的n个元素,a为由第二数据转换的向量,所述第二数据E(B)包括E(y1),E(y2),...,E(yn),其中,分别为y1,y2,...,yn的平方,y1,y2,...,yn为b中的n个元素,b为由第四数据转换的向量,根据以下公式确定加密后的第一数据和第三数据的相似度E(sim):5.根据权利要求1或2所述的方法,其特征在于,所述加密后的第一数据E(A)包括其中,分别为x1,x2,...,xn的平方,x1,x2,...,xn为a中的n个元素,a为由第二数据转换的向量,所述第二数据E(B)包括其中,分别为y1,y2,...,yn的平方,y1,y2,...,yn为b中的n个元素,b为由第四数据转换的向量,根据以下公式确定加密后的第一数据和第三数据的相似度E(sim):6.根据权利要求1或2所述的方法,其特征在于,所述加密后的第一数据E(A)包括E(x1),E(x2),...,E(xn),其中,分别为x1,x2,...,xn的平方,x1,x2,...,xn为a中的n个元素,为x1,x2,...,xn的平均值,为的平方,a为由第二数据转换的向量,所述第二数据E(B)包括E(y1),E(y2),...,E(yn),其中,分别为y1,y2,...,yn的平方,y1,y2,...,yn为b中的n个元素,为y1,y2,...,yn的平均值,为的平方,b为由第四数据转换的向量,根据以下公式确定加密后的第一数据和第三数据的相似度E(sim):7.一种相似数据确定方法,其特征在于,由客户端执行,包括:向服务器发送的公钥和及用所述公钥加密的第一数据E(A),其中,E()为同态加密函数,A为所述第一数据,所述第一数据为由第二数据生成的;接收服务器发送的加密后的第一数据和第三数据的相似度E(sim),其中,sim为所述第一数据和所述第三数据的相似度,所述加密后的第一数据和第三数据的相似度E(sim)是服务器根据加密后的第一数据E(A)以及加密后的第三数据E(B)确定的,B为所述第三数据,所述第三数据为由第四数据生成的;用私钥对所述加密后的第一数据和第三数据的相似度E(sim)进行解密,得到解密后的第一数据和第三数据的相似度sim;向服务器发送解密后的第一数据和第三数据的相似度sim。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:将第二数据通过语义特征提取算法转换为语义特征集合;将所述语义特征集合通过转换算法转换为第一数据,其中,所述转换算法包括simhash算法。9.根据权利要求7或8所述的方法,其特征在于,所述加密后的第一数据E(A)包括E(a)以及E(1/|a|),其中,a为由第二数据转换的向量,1/|a|为向量a的向量长度的倒数,所述加密后的第三数据E(B)包括E(b)以及E(1/|b|),其中,b为由第四数据转换的向量,1/|b|为向量b的向量长度的倒数,所述加密后的第一数据和第三数据的相似度E(sim)是根据以下公式确定的:E(sim)=E(a)*E(b)*E(1/|a|)*E(1/|b|)。10.一种服务器,其特征在于,包括接收模块、处理模块、以及发送模块,所述接收模块用于接收客户端发送的公钥和及用所述公钥加密的第一数据E(A),其中,E()为同态加密函...

【专利技术属性】
技术研发人员:孙志蔚
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1