当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于差分隐私的安全外包机器学习方法技术

技术编号:21715079 阅读:25 留言:0更新日期:2019-07-27 19:23
本发明专利技术公开了一种基于差分隐私的安全外包机器学习方法,属于网络空间安全领域,该方法实现了数据提供者在不向第三方泄露敏感数据的前提下,将数据用加同态加密技术处理后上传给云服务器,云服务器对加密数据进行存储和加噪操作并通过与机器学习模型提供者的交互获取查询函数来进行机器学习。此方法将外包计算与差分隐私有效地结合起来,不仅保证了机器学习的安全性和隐私性,同时大大降低了计算开销和计算成本并提升了计算效率,有效缓解了传统外包机器学习方法中面临的低效和安全问题。

A secure outsourcing machine learning method based on differential privacy

【技术实现步骤摘要】
一种基于差分隐私的安全外包机器学习方法
本专利技术属于网络空间安全领域,具体涉及一种基于差分隐私的安全外包机器学习方法。
技术介绍
随着互联网和信息技术的发展,越来越多的数据产生和被利用。据统计,目前全球数据的增长速度在每年40%左右,未来五年全球大数据产业将得到强劲发展。面对日益激增的海量数据,云计算技术作为一种新型的数据计算和存储模式,可以大大满足其对存储和处理的要求。通过云计算技术的存储和计算外包能力,用户可将本地计算及存储需求转移到云端,借助云服务器强大的计算和存储能力来提高对数据处理的效率。因此,拥有强大计算能力的云计算技术成为大数据技术的好伙伴。与此同时,机器学习以高效的学习算法、丰富庞大的数据和强大的计算环境为基础,利用人类积累的大量数据广泛应用于模式识别、计算机视觉、数据挖掘等场景中。在科学研究和工业发展的推动下,机器学习涉及的领域以及应用也越来越广,尤其是在医学、金融、商业等领域。例如在医学诊断中,我们通过收集海量病例数据训练出一个机器学习模型,可以精确的分析出患者患某种疾病的几率。云计算外包服务虽然利用其强大的存储和计算能力解决用户计算困难等问题,但作为不完全可信的第三方,我们的个人敏感信息会面临很多新的安全挑战,包括外包数据存储和计算等服务的安全和隐私保护问题。例如:2018年3月17日《纽约时报》报道称,剑桥咨询公司获得了超5000万的Facebook用户数据访问权限,导致坐拥20亿用户的Facebook陷入了史上最大的个人信息泄露风波。应对上述隐私挑战,传统解决方法是数据提供者通过使用加密技术来保护数据的隐私,但最终实现的效果很不理想。差分隐私作为一种最流行的隐私保护技术已经被广泛应用与研究,其主要思想是对于差别只有一条记录的两个数据集,查询它们获得相同值的概率是可忽略的。最常用的方法是在查询结果上添加满足某种分布的噪音,使查询结果随机化。作为一种替代方案,差分隐私不仅保护数据的隐私,而且提高对数据处理的效率。因此,数据提供者将数据外包给云服务器,再通过云服务器与机器学习模型提供者进行交互可以完成安全有效的机器学习任务。在对现有方法的研究中发现,传统方法至少存在以下问题:1)为了适应不同的应用和隐私预算,应用于不同查询任务的数据必须添加不同类型的噪声,这不可避免地增大计算开销和交互,提高了计算成本。2)当数据提供者发布他们的数据时,公共实体即云服务器必须存在于能够以不同类型的噪声存储所有不同类型数据集的地方,对云服务器的存储空间提出了很大的挑战。
技术实现思路
为了解决传统方案在数据集中添加不同类型的噪声而导致的低效率问题,本专利技术提供一种基于差分隐私的安全外包机器学习方法,结合云计算技术和差分隐私技术,将复杂的计算和存储任务外包出去,不仅保证了机器学习的安全性和隐私性,同时大大降低了计算开销和成本并提升了计算效率,有效缓解了传统外包机器学习方法中面临的低效和安全问题。本专利技术采用如下技术方案实现:本基于差分隐私的安全外包机器学习方法,包括步骤:S1、数据提供者选取具有加法同态加密性质的Paillier加密算法,与机器学习模型提供者DE协商生成一对密钥(sk,pk),其中数据提供者持有公钥pk,机器学习模型提供者DE持有私钥sk;S2、数据提供者将在上传之前根据属性区分对其数据进行预处理,随后用公钥pk将预处理的数据M=(m1,m2,...,mn)加密,将加密后的密文数据||m1||pk,||m2||pk,...,||mn||pk发送到云服务器CSP;S3、云服务器CSP接收上传的密文数据,并从机器学习模型提供者DE中获取查询函数F,计算出符合ε-差分隐私标准的噪声η,用Add(||M||,||η||)算法将其添加到步骤S2中的密文数据,将加噪后的数据||F(M)+η||pk发送给机器学习模型提供者DE;S4、机器学习模型提供者DE接收加噪后的数据,解密Dec(||m1||pk,||m2||pk,...,||mn||pk,sk)后,获取噪声数据(F(M)+η),并作为输入,运用机器学习算法对噪声数据进行分析,完成机器学习任务。本专利技术相比传统全同态加密,不需要花费云服务器大量的存储空间和计算空间;利用同态加密的性质可使在第三步中的云服务器安全地对加密数据加噪声,解决了数据安全问题。与现有方法相比,其取得的有益效果主要有以下几点:1)数据提供者不需要在本地添加噪声,噪声的添加借助强大的云服务器运用云计算技术来完成。2)通过加同态加密技术,利用对密文数据加法操作而不影响其数据完整性的性质,保证了数据在运算和存储过程中不会在云服务器和机器学习模型提供者之间泄露;而相比全同态加密又大大降低了通信复杂度,减少了加密过程中的交互操作,降低了计算开销,提高了计算效率。同时,引用差分隐私技术通过对敏感数据的加噪声使其实现隐私保护。3)保证了外包机器学习的安全性,隐私数据在没有向不可信的第三方透露的前提下实现了机器学习。附图说明图1是本专利技术外包机器学习方法的流程图;图2是在运用本专利技术方法的数据和原始不加噪数据进行相同机器学习任务的效果对比图。具体实施方式基于云端的数据计算作为一种新型的数据计算和存储模式,具有十分强大的数据处理能力和更大的存储空间。本专利技术通过云计算技术,大量的本地计算操作(包括运用差分隐私技术加噪)可以借助云服务器去完成;通过云服务器与机器学习模型提供者的交互完成机器学习任务,从而实现了安全高效的外包机器学习任务。为了便于技术人员对本专利技术的理解,下面结合附图和实施例对本专利技术进行详细说明,但本专利技术的实施方式不限于此。本专利技术涉及的一些基本概念如下:1)Paillier同态加密:同态加密技术与一般的加密技术一样对加密方消息实施加密操作,即在不解密密文的条件下,通过对密文执行操作,就能够做到对明文数据的各种计算,满足了隐私保护的安全性需求。其次,同态加密技术具有一般加密技术不具备的自然属性。一般加密状态的数据直接计算便会破坏相应明文,而利用同态加密的密文数据可直接运算而不会破坏对应明文信息的完整性和保密性。总之,同态加密是一种加密形式,它允许特定类型的计算对密文进行加密,解密时对明文执行匹配结果的操作可以获得一个加密的结果。Paillier同态加密是加法性质同态加密,在密文空间计算中有较好的应用,也适用于本专利技术方法。2)ε-差分隐私:是一种用于在统计数据库中形式化隐私的框架,用来防止去匿名化的技术。在此定义下,对数据库的计算处理结果对于具体某个记录的变化是不敏感的,单个记录在数据集中或者不在数据集中,对计算结果的影响微乎其微。由于差分隐私是一个概率概念,任何差分隐私机制必然是随机的。针对本方法我们采用Laplace机制,主要是通过添加基于ΔF和隐私预算ε的Laplace噪声来干扰数据。3)外包计算:外包计算是一种将开销大、计算复杂的计算外包给不受信任的服务器的技术,它允许资源受限的数据提供者将其计算负载外包给具有无限计算资源的云服务器。4)机器学习:美国人工智能领域专家ArthurSamuel对机器学习是这样描述的:机器学习是在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域。机器学习领域大体上分为三个子领域:监督学习、无监督学习和强化学习。同时机器学习作为一种服务,大本文档来自技高网
...

【技术保护点】
1.一种基于差分隐私的安全外包机器学习方法,其特征在于,包括步骤:S1、数据提供者选取具有加法同态加密性质的Paillier加密算法,与机器学习模型提供者DE协商生成一对密钥(sk,pk),其中数据提供者持有公钥pk,机器学习模型提供者DE持有私钥sk;S2、数据提供者将在上传之前根据属性区分对其数据进行预处理,随后用公钥pk将预处理的数据M=(m1,m2,...,mn)加密,将加密后的密文数据∥m1∥pk,∥m2∥pk,...,∥mn∥pk发送到云服务器CSP;S3、云服务器CSP接收上传的密文数据,并从机器学习模型提供者DE中获取查询函数F,计算出符合ε‑差分隐私标准的噪声η,用Add(∥M∥,∥η∥)算法将其添加到步骤S2中的密文数据,将加噪后的数据∥F(M)+η∥pk发送给机器学习模型提供者DE;S4、机器学习模型提供者DE接收加噪后的数据,解密Dec(∥m1∥pk,∥m2∥pk,...,∥mn∥pk,sk)后,获取噪声数据(F(M)+η),并作为输入,运用机器学习算法对噪声数据进行分析,完成机器学习任务。

【技术特征摘要】
1.一种基于差分隐私的安全外包机器学习方法,其特征在于,包括步骤:S1、数据提供者选取具有加法同态加密性质的Paillier加密算法,与机器学习模型提供者DE协商生成一对密钥(sk,pk),其中数据提供者持有公钥pk,机器学习模型提供者DE持有私钥sk;S2、数据提供者将在上传之前根据属性区分对其数据进行预处理,随后用公钥pk将预处理的数据M=(m1,m2,...,mn)加密,将加密后的密文数据∥m1∥pk,∥m2∥pk,...,∥mn∥pk发送到云服务器CSP;S3、云服务器CSP接收上传的密文数据,并从机器学习模型提供者DE中获取查询函数F,计算出符合ε-差分隐私标准的噪声η,用Add(∥M∥,∥η∥)算法将其添加到步骤S2中的密文数据,将加噪后的数据∥F(M)+η∥pk发送给机器学习模型提供者DE;S4、机器学习模型提供者DE接收加噪后的数据,解密Dec(∥m1∥pk,∥m2∥pk,...,∥mn∥pk,sk)后,获取噪声数据(F(M)+η),并作为输入,运用机器学习算法对噪声数据进行分析,完成机器学习任务。2.根据权利要求1所述的基于差分隐私的安全外包机器学习方法,其特征在于,...

【专利技术属性】
技术研发人员:李进雷震光李同姜冲
申请(专利权)人:广州大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1