一种基于同态加密的安全朴素贝叶斯分类器训练方法技术

技术编号：28873189 阅读：25 留言：0更新日期：2021-06-15 23:06

本发明专利技术涉及数据隐私保护领域，具体涉及一种基于同态加密的安全朴素贝叶斯分类器训练方法，设训练数据集的记录共包含C种类别，每个记录包含d个属性，具体为：首先对C种类别中的每一类，通过隐私服务器与所有单位进行交互计算，得到每一类的类先验概率，即为该样本类别出现的频率；然后对第1个属性到第d个属性的每一个属性进行判断。本发明专利技术在不泄露各家单位的训练数据集的隐私的前提下，实现基于多家单位的训练数据集，训练朴素贝叶斯分类器，并能够实现即使隐私服务器与多家单位其中的一些单位串通，串通之后的隐私服务器或者单位也无法得知其他单位的任何隐私信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于同态加密的安全朴素贝叶斯分类器训练方法
本专利技术涉及数据隐私保护领域，具体涉及一种基于同态加密的安全朴素贝叶斯分类器训练方法。
技术介绍
依托于大数据的人工智能浪潮席卷全球，正在推动经济社会各领域从数字化、网络化向智能化加速跃升。对于普遍的数据分析任务而言，提升训练数据规模对提高机器学习模型的准确率具有关键作用。2017年，美国谷歌公司的研究人员利用3亿张图像数据进行的实验，印证了训练数据规模对模型质量的重要性。鉴于单个机构拥有的数据规模有限，为了训练高质量的机器学习模型，通常需要从多个单位收集训练数据。其中，朴素贝叶斯分类器是以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的概率分类器。朴素贝叶斯分类器是高度可扩展的，且计算简单。然而，由于训练数据往往包含敏感信息(如医疗记录、消费记录等)，利用来自不同单位的数据进行朴素贝叶斯训练面临巨大的隐私泄露风险。欧盟实施的《通用数据保护条例》和《中华人民共和国网络安全法》等法律法规均明确了网络运营者的数据隐私保护义务。为了利用多家单位的数据进行朴素贝叶斯模型训练，需要设计安全协议，来保证没有隐私泄露地实现基于多家单位的数据训练朴素贝叶斯分类器。使用多家单位进行朴素贝叶斯分类器训练一般可通过如下几个方案进行：方案一：多家单位直接将自家数据集共享给大家，大家将数据集聚集成一个大数据集，并将聚合的数据集输入朴素贝叶斯分类器训练算法进行训练。方案二：多家单位合作雇佣一个第三方。多家单位都将自家数据集直接发送给第三方。第三方将数据集聚集成一...

【技术保护点】
1.一种基于同态加密的安全朴素贝叶斯分类器训练方法，设训练数据集的记录共包含C种类别，每个记录包含d个属性，其特征在于，具体包括如下步骤：/n步骤1，对C种类别中的每一类，通过隐私服务器与所有单位进行交互计算，得到每一类的类先验概率

【技术特征摘要】
1.一种基于同态加密的安全朴素贝叶斯分类器训练方法，设训练数据集的记录共包含C种类别，每个记录包含d个属性，其特征在于，具体包括如下步骤：
步骤1，对C种类别中的每一类，通过隐私服务器与所有单位进行交互计算，得到每一类的类先验概率即为样本类别出现的频率，m为数据集总记录数，yc表示第yc类样本；
步骤2，对第1个属性到第d个属性的每一个属性进行判断。

2.如权利要求1所述的一种基于同态加密的安全朴素贝叶斯分类器训练方法，其特征在于，所述步骤2具体包括：
若属性是离散属性，通过隐私服务器与所有单位进行交互计算，则得到每个离散属性的条件概率为：

|xi|为数据集中带有xi属性的记录条数；
若属性是连续属性，通过隐私服务器与所有单位进行交互计算，计算概率密度函数参数，假定P(xi|y)服从正态分布，则每个连续属性的条件概率为：

令μi和σi分别是第yc类样本在第i个属性上取值的均值和方差：均值μi为将各家...

【专利技术属性】
技术研发人员：沈蒙，唐湘云，高丰，祝烈煌，
申请(专利权)人：之江实验室，北京理工大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人