当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于同态加密的安全朴素贝叶斯分类器训练方法技术

技术编号:28873189 阅读:25 留言:0更新日期:2021-06-15 23:06
本发明专利技术涉及数据隐私保护领域,具体涉及一种基于同态加密的安全朴素贝叶斯分类器训练方法,设训练数据集的记录共包含C种类别,每个记录包含d个属性,具体为:首先对C种类别中的每一类,通过隐私服务器与所有单位进行交互计算,得到每一类的类先验概率,即为该样本类别出现的频率;然后对第1个属性到第d个属性的每一个属性进行判断。本发明专利技术在不泄露各家单位的训练数据集的隐私的前提下,实现基于多家单位的训练数据集,训练朴素贝叶斯分类器,并能够实现即使隐私服务器与多家单位其中的一些单位串通,串通之后的隐私服务器或者单位也无法得知其他单位的任何隐私信息。

【技术实现步骤摘要】
一种基于同态加密的安全朴素贝叶斯分类器训练方法
本专利技术涉及数据隐私保护领域,具体涉及一种基于同态加密的安全朴素贝叶斯分类器训练方法。
技术介绍
依托于大数据的人工智能浪潮席卷全球,正在推动经济社会各领域从数字化、网络化向智能化加速跃升。对于普遍的数据分析任务而言,提升训练数据规模对提高机器学习模型的准确率具有关键作用。2017年,美国谷歌公司的研究人员利用3亿张图像数据进行的实验,印证了训练数据规模对模型质量的重要性。鉴于单个机构拥有的数据规模有限,为了训练高质量的机器学习模型,通常需要从多个单位收集训练数据。其中,朴素贝叶斯分类器是以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的概率分类器。朴素贝叶斯分类器是高度可扩展的,且计算简单。然而,由于训练数据往往包含敏感信息(如医疗记录、消费记录等),利用来自不同单位的数据进行朴素贝叶斯训练面临巨大的隐私泄露风险。欧盟实施的《通用数据保护条例》和《中华人民共和国网络安全法》等法律法规均明确了网络运营者的数据隐私保护义务。为了利用多家单位的数据进行朴素贝叶斯模型训练,需要设计安全协议,来保证没有隐私泄露地实现基于多家单位的数据训练朴素贝叶斯分类器。使用多家单位进行朴素贝叶斯分类器训练一般可通过如下几个方案进行:方案一:多家单位直接将自家数据集共享给大家,大家将数据集聚集成一个大数据集,并将聚合的数据集输入朴素贝叶斯分类器训练算法进行训练。方案二:多家单位合作雇佣一个第三方。多家单位都将自家数据集直接发送给第三方。第三方将数据集聚集成一个大数据集,并将聚合的数据集输入朴素贝叶斯分类器训练算法进行训练。上述第一种方案,有如下技术缺点:单位拥有的数据往往包含本单位的大量敏感信息(如医疗记录、通话记录、消费及借贷记录等)。将本单位的数据共享给其他单位会导致隐私泄露。上述第二种方案,有如下技术缺点:多家单位将数据共享给第三方。一方面,多家单位的隐私数据会通过第三方被泄露。另一方面,第三方有可能与多家单位其中一些单位串通,使得串通的单位能得知其他单位的数据隐私。
技术实现思路
为了解决现有技术中存在的上述技术问题,本专利技术提供了一种基于同态加密的安全朴素贝叶斯分类器训练方法,其具体技术方案如下:一种基于同态加密的安全朴素贝叶斯分类器训练方法,设训练数据集的记录共包含C种类别,每个记录包含d个属性,包括如下步骤:步骤1,对C种类别中的每一类,通过隐私服务器与所有单位进行交互计算,得到每一类的类先验概率即为样本类别出现的频率,m为数据集总记录数,yc表示第yc类样本;步骤2,对第1个属性到第d个属性的每一个属性进行判断。进一步的,所述步骤2具体包括:若该属性是离散属性,通过隐私服务器与所有单位进行交互计算,则得到每个离散属性的条件概率为:|xi|为数据集中带有xi属性的记录条数;若该属性是连续属性,通过隐私服务器与所有单位进行交互计算,计算概率密度函数参数,假定P(xi|y)服从正态分布,则每个连续属性的条件概率为:令μi和σi分别是第yc类样本在第i个属性上取值的均值和方差:均值μi为将各家单位在本地计算的均值相加除以单位的数量,方差为进一步的,所述隐私服务器与所有单位进行交互计算均采用安全求和方法,所述安全求和方法,具体的包括如下步骤:第1步:K家单位的每家单位都随机选择一个随机数rk,并计算得到每家单位将rk用自己的Paillier公钥(PKk)加密,加密后,每家单位将加密后的随机数[rk]发送给隐私服务器,每家单位将发送给隐私服务器,ak为每家单位拥有的一个隐私数据;第2步:隐私服务器计算隐私服务器用第1家单位的Paillier公钥(PKk)加密从1到K,隐私服务器重复进行第3步;第3步:首先利用Paillier的同态减法,隐私服务器计算则隐私服务器已经减去中包含的所有单位随机选择的随机数;然后隐私服务器将由第k家单位的Paillier公钥(PKk)加密转换为由第k+1家单位的Paillier公钥(PKk);第4步:隐私服务器解密得到安全求和值本专利技术的有益效果:本专利技术在不泄露各家单位的训练数据集的隐私的前提下,实现了基于多家单位的训练数据集,训练朴素贝叶斯分类器,由于各家单位在将训练数据集发送给隐私服务器之前,都将训练数据集用自己的公钥进行了加密,训练数据集的安全性由选用的加密算法Paillier加以保证,即使隐私服务器与多家单位其中的一些单位串通,串通之后的隐私服务器或者单位也无法得知其他单位的任何隐私信息。具体实施方式为了使本专利技术的目的、技术方案和技术效果更加清楚明白,以下结合实施例对本专利技术作进一步详细说明。本专利技术的一种基于同态加密的安全朴素贝叶斯分类器训练方法,在运行时涉及多家单位和一位隐私服务器,所述单位是拥有训练朴素贝叶斯模型数据的单位,每家单位拥有一个私人数据集,数据集包含该单位内部隐私数据,不可直接对外共享;所述隐私服务器用于协助单位进行朴素贝叶斯模型训练。实施例:所述多家单位和隐私服务器的工作流程为:S1、利用同态加密Paillier,每家单位自己生成属于自己的Paillier公私钥对:(SK,PK)k;S2、每家单位将自己的私人训练数据集用自己的Paillier公钥(PKk)加密,加密后,每家单位将加密的训练数据集发送给隐私服务器;S3、隐私服务器收到所有单位发来的加密的训练数据集,利用本专利技术的安全朴素贝叶斯分类器训练方法,通过与所有单位进行交互计算,训练朴素贝叶斯分类器;S4、所述本专利技术的安全朴素贝叶斯分类器训练方法的输出为一个朴素贝叶斯分类器;S5、隐私服务器将所述朴素贝叶斯分类器分享给所有单位,训练结束。所述本专利技术的安全朴素贝叶斯分类器训练方法,实现了用多家单位的加密数据集训练朴素贝叶斯分类器,具体为:设训练数据集的记录共包含C种类别,每个记录包含d个属性,隐私服务器与所有单位进行交互计算时均采用安全求和方法,详细的,包括以下步骤:步骤1,对C种类别中的每一类,通过隐私服务器与所有单位进行交互计算,得到每一类的类先验概率即为样本类别出现的频率,m为数据集总记录数,yc表示第yc类样本;步骤2,对第1个属性到第d个属性的每一个属性进行判断:若该属性是离散属性,通过隐私服务器与所有单位进行交互计算,则得到每个离散属性的条件概率为:|xi|为数据集中带有xi属性的记录条数;若该属性是连续属性,通过隐私服务器与所有单位进行交互计算,计算概率密度函数参数,假定P(xi|y)服从正态分布,则每个连续属性的条件概率为:令μi和σi分别是第yc类样本在第i个属性上取值的均值和方差:均值μi为将各家单位在本地计算的均值相加除以单位的数量,方差为更具体的,设一共有K家单位,每家单位拥有一个隐私数据ak,所述安全求和方法的步骤具体为:第1步:K家单位的本文档来自技高网
...

【技术保护点】
1.一种基于同态加密的安全朴素贝叶斯分类器训练方法,设训练数据集的记录共包含C种类别,每个记录包含d个属性,其特征在于,具体包括如下步骤:/n步骤1,对C种类别中的每一类,通过隐私服务器与所有单位进行交互计算,得到每一类的类先验概率

【技术特征摘要】
1.一种基于同态加密的安全朴素贝叶斯分类器训练方法,设训练数据集的记录共包含C种类别,每个记录包含d个属性,其特征在于,具体包括如下步骤:
步骤1,对C种类别中的每一类,通过隐私服务器与所有单位进行交互计算,得到每一类的类先验概率即为样本类别出现的频率,m为数据集总记录数,yc表示第yc类样本;
步骤2,对第1个属性到第d个属性的每一个属性进行判断。


2.如权利要求1所述的一种基于同态加密的安全朴素贝叶斯分类器训练方法,其特征在于,所述步骤2具体包括:
若属性是离散属性,通过隐私服务器与所有单位进行交互计算,则得到每个离散属性的条件概率为:

|xi|为数据集中带有xi属性的记录条数;
若属性是连续属性,通过隐私服务器与所有单位进行交互计算,计算概率密度函数参数,假定P(xi|y)服从正态分布,则每个连续属性的条件概率为:



令μi和σi分别是第yc类样本在第i个属性上取值的均值和方差:均值μi为将各家...

【专利技术属性】
技术研发人员:沈蒙唐湘云高丰祝烈煌
申请(专利权)人:之江实验室北京理工大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1