基于差分隐私策略的分布式机器学习方法及系统技术方案

技术编号:35551253 阅读:13 留言:0更新日期:2022-11-12 15:31
本发明专利技术公开了一种基于差分隐私策略的分布式机器学习方法及系统,包括:获取与第一发布请求单元内相对应的数据存储单元内的第一数据集,确定数据存储单元内先前发送至第一请求端或第二请求端的第二数据集;得到新增数据集,获取新增数据集内所有新增数据条的第一数据条数量以及每个新增数据条的数据属性特征;若判断第一差异数量达到第一数量条件、数据属性特征达到第一特征条件,则将第二数据集发布至第一请求端;根据第一差异数量、所有新增数据条的数据属性特征生成噪音数据数量、噪音属性特征;根据噪音数据数量、噪音属性特征对第一数据集进行更新,得到相对应的第三数据集,将第三数据集发布至第一请求端。将第三数据集发布至第一请求端。将第三数据集发布至第一请求端。

【技术实现步骤摘要】
基于差分隐私策略的分布式机器学习方法及系统


[0001]本专利技术涉及数据处理
,特别是涉及一种基于差分隐私策略的分布式机器学习方法及系统。

技术介绍

[0002]随着现代信息技术的快速发展,分布式机器学习在多方合作的应用场景中的作用愈发凸显。拥有规模大质量高的数据集可以提高机器学习模型的质量,这就激励了数据所有者们共享和合并他们的数据集,从而训练得到质量更高的模型。然而,在数据集合并的过程中不可避免地会产生隐私泄露的问题。随着相关隐私法规的完善,分布式机器学习中的隐私保护问题日益受到人们的关注。
[0003]在现有的基于差分隐私,进行数据的分布式机器学习过程中,如果两个相邻的数据集相差较少(较为接近),此时两个相邻的数据集之间的样本数据较为接近,对模型训练的参数梯度调整也会较少,并且此时极易造成新增样本的隐私泄露,所以在某些需求场景下,可以根据数据集之间的关系来辅助发布者是否对相应的数据集进行发布,现有技术中,并无法根据数据集内所包括的数据条目之间的关系来辅助发布者对数据集发布进行决策。

技术实现思路

[0004]本专利技术克服现有技术的缺点,提供一种基于差分隐私策略的分布式机器学习方法及系统,根据数据集内所包括的数据条目之间的关系来辅助发布者对数据集发布进行决策,减少隐私泄漏。
[0005]为了解决以上技术问题,本专利技术的技术方案如下:本专利技术实施例提供一种基于差分隐私策略的分布式机器学习方法,包括:S1,在判断接收到第一请求端的第一发布请求时,获取与第一发布请求相对应的数据存储单元内的第一数据集,确定数据存储单元内先前发送至第一请求端或第二请求端的第二数据集;S2,将所述第一数据集内的第一数据条与第二数据集内的第二数据条进行比对,得到新增数据集,获取所述新增数据集内所有新增数据条的第一数据条数量以及每个新增数据条的数据属性特征;S3,基于新增数据集得到第一差异数量,若判断所述第一差异数量达到第一数量条件和数据属性特征达到第一特征条件,则将所述第一数据集发布至所述第一请求端;S4,若判断所述第一差异数量达到第一数量条件,且数据属性特征未达到第一特征条件,则根据所述第一差异数量、所有新增数据条的数据属性特征生成噪音数据数量、噪音属性特征;S5,根据所述噪音数据数量、噪音属性特征对所述第一数据集进行更新,得到相对应的第三数据集,将所述第三数据集发布至所述第一请求端。
[0006]可选的,所述S1包括:
提取所述第一发布请求所对应的请求标签,根据所述请求标签确定至少一个数据存储单元,每个请求标签具有与其预先对应设置的数据存储单元;遍历所述数据存储单元内满足预设要求的数据条得到第一数据集,所述第一数据集内的数据条具有与其对应的第一数据标签,统计所有的第一数据标签得到第一标签列表;获取与所确定的数据存储单元对应的数据发布记录表,所述数据发布记录表中具有每次发布时的发布时间信息、发布起始数据条的起始数据标签、发布终止数据条的终止数据标签;选取与当前时刻最接近的发布时间信息作为第一发布时间信息,根据第一发布时间信息的起始数据标签、终止数据标签生成第二标签列表,统计数据存储单元内第二标签列表所对应的所有数据条得到第二数据集。
[0007]可选的,所述S2包括:将第一标签列表与所述第二标签列表进行比对,若判断第一标签列表的所有第一数据标签完全包含第二标签列表的第二数据标签,则确定第一标签列表内具有、第二标签列表内不具有的第一数据标签,得到第一新增标签列表;统计数据存储单元内所有的第一新增标签列表对应的数据条,得到新增数据集;获取所述数据存储单元内的数据条的数据属性种类,根据所述数据属性种类得到相对应的多个数据属性特征,每个数据属性种类具有与其对应的多个数据属性特征;统计第一新增标签列表内第一新增数据标签的数量得到第一数据条数量,以及第一新增标签列表内每个第一新增数据标签所对应的数据属性特征,使得每个第一新增数据标签具有相对应的数据属性标识。
[0008]可选的,所述S2包括:将第一标签列表与所述第二标签列表进行比对,若判断第一标签列表的所有第一数据标签不完全包含第二标签列表的第二数据标签,则确定第一标签列表内具有、第二标签列表内不具有的第一数据标签,得到第一新增标签列表,确定第一标签列表内不具有、第二标签列表内具有的第二数据标签,得到第一减少标签列表;统计数据存储单元内第一新增标签列表对应的所有的数据条,得到新增数据集,统计数据存储单元内第一减少标签列表对应的所有的数据条,得到减少数据集;获取所述数据存储单元内的数据条的数据属性种类,根据所述数据属性种类得到相对应的多个数据属性特征,每个数据属性种类具有与其对应的多个数据属性特征;统计第一新增标签列表内第一新增数据标签的数量得到第一数据条数量,以及第一新增标签列表内每个第一新增数据标签所对应的数据属性特征,使得每个第一新增数据标签具有相对应的数据属性标识;统计第一减少标签列表内第一减少数据标签的数量得到第二数据条数量,以及第一减少标签列表内每个第一减少数据标签所对应的数据属性特征,使得每个第一减少数据标签具有相对应的数据属性标识。
[0009]可选的,所述S3包括:基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量,若所述第一差异数量大于等于第一预设数量,则判断第一差异数量达到第一数量条件;
获取所有的第一新增数据标签的数据属性标识和/或第一减少数据标签具有的数据属性标识,根据每个数据属性标识所对应的数据属性特征,得到相对应的属性特征占比;根据数据属性特征的数量、不同类型的数据属性特征的属性特征占比进行计算,得到每种数据属性特征的融合属性占比,若所述融合属性占比位于预设占比区间内,则判断数据属性特征达到第一特征条件,将所述第一数据集发布至所述第一请求端。
[0010]可选的,所述基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量,若所述第一差异数量大于等于第一预设数量,则判断第一差异数量达到第一数量条件,包括:若判断仅存在第一数据条数量,不存在第二数据条数量,则将第一数据条数量作为第一差异数量;若判断同时存在第一数据条数量和第二数据条数量,且第一数据条数量大于等于最小数据条数量,则根据第一数据条数量和第二数据条数量进行综合计算,得到第一差异数量,通过以下公式计算第一差异数量,其中,为最小数据条数量,为第一差异数量,为第一数据条数量,为第一数据条权重,为第二数据条数量,为第二数据条权重;若判断第一差异数量大于等于第一预设数量,则判断第一差异数量达到第一数量条件。
[0011]可选的,所述获取所有的第一新增数据标签的数据属性标识和/或第一减少数据标签具有的数据属性标识,根据每个数据属性标识所对应的数据属性特征,得到相对应的属性特征占比,包括:统计第一新增数据标签在第种的数据属性标识的新增数量,以及第一减少数据标签具在第种的数据属性标识的减少数量;统计所有数据属性标识的数量得到属性种类总数量,根据所述属性种类总数量得到属性占比调整趋势值;根据第种数据属性标识的新增数量、减少数量、所有数据属性标识的新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于差分隐私策略的分布式机器学习方法,其特征在于,包括:S1,在判断接收到第一请求端的第一发布请求时,获取与第一发布请求相对应的数据存储单元内的第一数据集,确定数据存储单元内先前发送至第一请求端或第二请求端的第二数据集;S2,将所述第一数据集内的第一数据条与第二数据集内的第二数据条进行比对,得到新增数据集,获取所述新增数据集内所有新增数据条的第一数据条数量以及每个新增数据条的数据属性特征;S3,基于新增数据集得到第一差异数量,若判断所述第一差异数量达到第一数量条件和数据属性特征达到第一特征条件,则将所述第一数据集发布至所述第一请求端;S4,若判断所述第一差异数量达到第一数量条件,且数据属性特征未达到第一特征条件,则根据所述第一差异数量、所有新增数据条的数据属性特征生成噪音数据数量、噪音属性特征;S5,根据所述噪音数据数量、噪音属性特征对所述第一数据集进行更新,得到相对应的第三数据集,将所述第三数据集发布至所述第一请求端。2.根据权利要求1所述的基于差分隐私策略的分布式机器学习方法,其特征在于,所述S1包括:提取所述第一发布请求所对应的请求标签,根据所述请求标签确定至少一个数据存储单元,每个请求标签具有与其预先对应设置的数据存储单元;遍历所述数据存储单元内满足预设要求的数据条得到第一数据集,所述第一数据集内的数据条具有与其对应的第一数据标签,统计所有的第一数据标签得到第一标签列表;获取与所确定的数据存储单元对应的数据发布记录表,所述数据发布记录表中具有每次发布时的发布时间信息、发布起始数据条的起始数据标签、发布终止数据条的终止数据标签;选取与当前时刻最接近的发布时间信息作为第一发布时间信息,根据第一发布时间信息的起始数据标签、终止数据标签生成第二标签列表,统计数据存储单元内第二标签列表所对应的所有数据条得到第二数据集。3.根据权利要求2所述的基于差分隐私策略的分布式机器学习方法,其特征在于,所述S2包括:将第一标签列表与所述第二标签列表进行比对,若判断第一标签列表的所有第一数据标签完全包含第二标签列表的第二数据标签,则确定第一标签列表内具有、第二标签列表内不具有的第一数据标签,得到第一新增标签列表;统计数据存储单元内所有的第一新增标签列表对应的数据条,得到新增数据集;获取所述数据存储单元内的数据条的数据属性种类,根据所述数据属性种类得到相对应的多个数据属性特征,每个数据属性种类具有与其对应的多个数据属性特征;统计第一新增标签列表内第一新增数据标签的数量得到第一数据条数量,以及第一新增标签列表内每个第一新增数据标签所对应的数据属性特征,使得每个第一新增数据标签具有相对应的数据属性标识。4.根据权利要求2所述的基于差分隐私策略的分布式机器学习方法,其特征在于,所述S2包括:
将第一标签列表与所述第二标签列表进行比对,若判断第一标签列表的所有第一数据标签不完全包含第二标签列表的第二数据标签,则确定第一标签列表内具有、第二标签列表内不具有的第一数据标签,得到第一新增标签列表,确定第一标签列表内不具有、第二标签列表内具有的第二数据标签,得到第一减少标签列表;统计数据存储单元内第一新增标签列表对应的所有的数据条,得到新增数据集,统计数据存储单元内第一减少标签列表对应的所有的数据条,得到减少数据集;获取所述数据存储单元内的数据条的数据属性种类,根据所述数据属性种类得到相对应的多个数据属性特征,每个数据属性种类具有与其对应的多个数据属性特征;统计第一新增标签列表内第一新增数据标签的数量得到第一数据条数量,以及第一新增标签列表内每个第一新增数据标签所对应的数据属性特征,使得每个第一新增数据标签具有相对应的数据属性标识;统计第一减少标签列表内第一减少数据标签的数量得到第二数据条数量,以及第一减少标签列表内每个第一减少数据标签所对应的数据属性特征,使得每个第一减少数据标签具有相对应的数据属性标识。5.根据权利要求3或4中任意一项所述的基于差分隐私策略的分布式机器学习方法,其特征在于,所述S3包括:基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量,若所述第一差异数量大于等于第一预设数量,则判断第一差异数量达到第一数量条件;获取所有的第一新增数据标签的数据属性标识和/或第一减少数据标签具有的数据属性标识,根据每个数据属性标识所对应的数据属性特征,得到相对应的属性特征占比;根据数据属性特征的数量、不同类型的数据属性特征的属性特征占比进行计算,得到每种数据属性特征的融合属性占比,若所述融合属性占比位于预设占比区间内,则判断数据属性特征达到第一特征条件,将所述第一数据集发布至所述第一请求端。6.根据权利要求5所述的基于差分隐私策略的分布式机器学习方法,其特征在于,所述基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量,若所述第一差异数量大于等于第一预设数量,则判断第一差异数量达到第一数量条件,包括:若判断仅存在第一数据条数量,不存在第二数据条数量,则将第一数据条数量作为第一差异数量;若判断同时存在第一数据条数量和第二数据条数量,且第一数据条数量大于等于最小数据条数量,则根据第一数据条数量和第二数据条数量进行综合计算,得到第一差异数量,通过以下公式计算第一差异数量,其中,为最小数据条数量,为第一差异数量,为第一数据条数量,为第一数据条权重,为第二数据条数量,为第二数据条权重;若判断第一差异数量大于等于第一预设数量,则判断第一差异数量达到第一数量条件。7.根据权利要求6所述的基于差分隐私策略的分布式机器学习方法,其特征在于,
所述获取所有的第一新增数...

【专利技术属性】
技术研发人员:钱锦李昂王红凯毛冬樊立波孙智卿韩荣杰来益博周鹏杜猛俊陈元中张吉许敏周昕悦
申请(专利权)人:国网浙江省电力有限公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1