一种机器学习服务系统中保护隐私的方法技术方案

技术编号:21454422 阅读:21 留言:0更新日期:2019-06-26 04:56
本发明专利技术公开了一种机器学习服务系统中保护隐私的方法,包括:步骤1,学习和表达原始数据:将高维的原始数据用低维本征空间表达;步骤2,学习和表达攻击者数据:将所有具有高概率分类结果的查询数据用低维本征空间表达作为攻击者数据;步骤3,比较和判断是否回答当前查询:比较所述攻击者数据与原始数据的相似度,如果相似度大于预设的阈值,确认回答当前查询会泄露隐私,则拒绝回答当前查询,否则允许回答当前查询。该方法能保护由于多次查询带来的隐私问题,可以通过对攻击者的知识进行学习建模,进而决定回答或是拒绝回答查询服务,解决了由于过度查询带来的机器学习查询服务隐私问题,由于在方法不改变模型本身,不影响服务质量。

【技术实现步骤摘要】
一种机器学习服务系统中保护隐私的方法
本专利技术涉及机器学习的数据隐私保护领域,尤其涉及一种机器学习服务系统中保护隐私的方法。
技术介绍
随着机器学习的快速发展和成熟,机器学习为生活以及很多领域带来便利。得利于深度学习,很多大企业如亚马逊、谷歌和百度等都致力于发展基于深度学习建立的服务系统。用户可以将建立模型这样复杂的任务交给拥有很强计算能力和存储能力的服务平台,或是向平台提出查询服务,一个简单的例子是:通过平台API查询某张图片获悉其对应的分类。但同时,这种服务系统带来了一系列的隐私和安全问题,因为神经网络模型往往是由敏感数据集训练而成,模型本身也是具有商业价值,需要被保护。特别是,随着机器学习的广泛应用,除了互联网巨公司都提供机器学习服务,大部分移动设备都具有GPU和很强的计算能力,这些配置为在移动设备训练模型提供可能,未来的发展中,移动设备也可以作为服务平台,提供模型查询服务。而目前这类问题并没有成熟的解决方案或是尝试。现有的一些技术为保护训练数据和模型对模型和数据进行加密。也有一些技术基于差分隐私,对数据加躁想达到保护隐私的目的,然而,目前已证实了差分隐私在机器学习中不能起到很好的隐私保护的作用,并且此类方法改变了模型,影响机器学习服务的质量,使得返回的查询结果可能出现错误。
技术实现思路
基于现有技术所存在的问题,本专利技术的目的是提供一种机器学习服务系统中保护隐私的方法,能在使用机器学习服务的同时可以保护数据隐私和模型安全,避免由于多次查询带来的隐私泄露的问题。本专利技术的目的是通过以下技术方案实现的:本专利技术实施例提供一种机器学习服务系统中保护隐私的方法,包括:步骤1,学习和表达原始数据:将高维的原始数据用低维本征空间表达;步骤2,学习和表达攻击者数据:将所有具有高概率分类结果的查询数据用低维本征空间表达作为攻击者数据;步骤3,比较和判断是否回答当前查询:比较所述攻击者数据与原始数据的相似度,如果相似度大于预设的阈值,确认回答当前查询会泄露隐私,则拒绝回答当前查询,否则允许回答当前查询。由上述本专利技术提供的技术方案可以看出,本专利技术实施例提供的机器学习服务系统中保护隐私的方法,其有益效果为:通过判断是否会泄露隐私来确认是否回答当前查询,解决由于过度查询带来的机器学习查询服务泄露隐私的问题;并且在机器学习服务系统中作为外部成分,不改变模型本身影响服务质量;实时性好,能很快的判断是否存在隐私泄露问题;兼容性好,该方法能实现在各类现有的机器学习模型或是各类机器学习服务平台上。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的机器学习服务系统中保护隐私的方法的流程图。具体实施方式下面结合本专利技术的具体内容,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。如图1所示,本专利技术实施例提供一种机器学习服务系统中保护隐私的方法,其特征在于,包括:步骤1,学习和表达原始数据:将高维的原始数据用低维本征空间表达;步骤2,学习和表达攻击者数据:将所有具有高概率分类结果的查询数据用低维本征空间表达作为攻击者数据;步骤3,比较和判断是否回答当前查询:比较所述攻击者数据与原始数据的相似度,如果相似度大于预设的阈值,确认回答当前查询会泄露隐私,则拒绝回答当前查询,否则允许回答当前查询。上述方法的步骤1中,将高维的原始数据用低维本征空间表达为:将高维的原始数据用Manifold去低维的本征空间表达。上述方法的步骤1中,用Manifold去低维的本征空间表达高维的原始数据时,用几何特征对二维或三维的Manifold进行刻画;并用拓扑特征对不能刻画的Manifold细节进行刻画。优选的,用几何特征对二维或三维的Manifold进行刻画为:用圆或球对二维或三维的Manifold进行刻画;所述用拓扑特征对不能刻画的Manifold细节进行刻画为:用GS-score刻画不能刻画的Manifold细节的两分布拓扑特征。上述方法的步骤2中,将所有具有高概率分类结果的查询数据用低维本征空间表达作为攻击者数据中,所述高概率分类结果的查询数据是指归为某一类的概率高于预设概率阈值的查询数据,所述预设概率阈值小于1且大于0.5;将所有具有高概率分类结果的查询数据用Manifold去低维的本征空间表达;上述步骤2中,所述攻击者数据是归为某一类的概率高于预设概率阈值的查询数据及其相对应的预测标签的集合,预设的概率阈值小于1且大于0.5。上述方法的步骤2中,将所有具有高概率分类结果的查询数据用低维的本征空间表达时,用几何特征对二维或是三维的Manifold进行刻画;并用拓扑特征对不能刻画的Manifold细节进行刻画。优选的,用几何特征对二维或三维的Manifold进行刻画为:用圆或球对二维或是三维的Manifold进行刻画;所述用拓扑特征对不能刻画的Manifold细节进行刻画为:用GS-score刻画不能刻画的Manifold细节的两分布拓扑特征。本专利技术的方法,在使用机器学习服务的同时可以保护数据隐私和模型安全,避免了由于多次查询带来的隐私泄露的问题。通过本专利技术的方法,能使如下应用场景成为现实:用户按照服务系统定义的方法使用API查询存储在服务系统的神经网络模型,但神经网络模型中隐私数据不被泄露,并且本专利技术的方法只在外部设备运行来融入机器学习服务系统,而机器学习服务系统不需要改变其内任意的服务模型,不影响机器学习的质量。下面对本专利技术实施例具体作进一步地详细描述。本专利技术实施例提供的机器学习服务系统中保护隐私的方法,可用于以下的应用场景:在机器学习云服务中,攻击者通过API向云服务平台提出查询(如:机器学习图片分类查询)要求返回相应的分类结果(属于某个类的类标和类别对应的概率向量)。通过模拟和学习攻击者数据进而决定回答或是拒绝查询,如果攻击者数据集分布足够接近于真实数据集则拒绝回答查询,进而避免攻击者在多次查询中获得私密的模型。就现有的依赖于多次查询的训练数据集攻击方法而言,本专利技术的方法还可以阻止攻击者获得训练数据,该方法包括以下步骤:步骤1,学习和表达原始数据:在低维本征空间表达高维的原始数据(即用来训练模型的数据集),这里利用低维的本征空间来提高回答效率和降低异常数据的影响;上述步骤1中,用Manifold去低维的表达数据,具体可采用有很好时效性和表达性的降维方法UMAP得到低维(二维或三维)的数据表达。步骤2,学习和表达攻击者数据:用Manifold去低维表达所有具有高概率分类结果的查询数据作为攻击者数据,该攻击者数据是归为某一类的概率高于预设概率阈值的查询数据及其相对应的预测标签的集合,预设的概率阈值小于1且大于0.5,一般设为接近于1,如设为0.9;上述步骤2中,采用有很好时效性和表达性的降维方本文档来自技高网...

【技术保护点】
1.一种机器学习服务系统中保护隐私的方法,其特征在于,包括:步骤1,学习和表达原始数据:将高维的原始数据用低维本征空间表达;步骤2,学习和表达攻击者数据:将所有具有高概率分类结果的查询数据用低维本征空间表达作为攻击者数据;步骤3,比较和判断是否回答当前查询:比较所述攻击者数据与原始数据的相似度,如果相似度大于预设的阈值,确认回答当前查询会泄露隐私,则拒绝回答当前查询,否则允许回答当前查询。

【技术特征摘要】
1.一种机器学习服务系统中保护隐私的方法,其特征在于,包括:步骤1,学习和表达原始数据:将高维的原始数据用低维本征空间表达;步骤2,学习和表达攻击者数据:将所有具有高概率分类结果的查询数据用低维本征空间表达作为攻击者数据;步骤3,比较和判断是否回答当前查询:比较所述攻击者数据与原始数据的相似度,如果相似度大于预设的阈值,确认回答当前查询会泄露隐私,则拒绝回答当前查询,否则允许回答当前查询。2.根据权利要求1所述的机器学习服务系统中保护隐私的方法,其特征在于,所述方法的步骤1中,将高维的原始数据用低维本征空间表达为:将高维的原始数据用Manifold去低维的本征空间表达。3.根据权利要求2所述的机器学习服务系统中保护隐私的方法,其特征在于,所述方法的步骤1中,用Manifold去低维的本征空间表达高维的原始数据时,用几何特征对二维或三维的Manifold进行刻画;并用拓扑特征对不能刻画的Manifold细节进行刻画。4.根据权利要求3所述的机器学习服务系统中保护隐私的方法,其特征在于,所述用几何特征对二维或三维的Manifold进行刻画为:用圆或球对二维或三维的Manifold进行刻画;所述用拓扑特征对不能刻画的Manifold细节进行刻画为:用GS-score刻画不能...

【专利技术属性】
技术研发人员:李向阳侯嘉慧
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1