【技术实现步骤摘要】
数据集生成方法及装置
本专利技术涉及数据安全领域,具体而言,涉及一种数据集生成方法及装置。
技术介绍
随着智慧城市、智能电网、智慧医疗等数字化技术的快速发展和移动终端设备的广泛普及,人们的衣食住行、健康医疗等信息被数字化,每天产生海量数据,促成了大数据时代的到来。大量的数据往往由不同的数据拥有者所有,例如,医院和金融机构分别拥有一组医疗数据和金融数据。当分布在多方的数据具有相同的ID包含不同的属性时,称之为多方垂直分割数据。发布多方垂直分割数据,有利于数据分析者充分分析和挖掘数据中潜在价值。然而,垂直分割数据中往往包含个体大量敏感信息,直接发布这种数据将不可避免地泄露个体隐私信息。差分隐私保护模型的提出为解决满足隐私保护的数据发布问题提供了一种可行的方案。与基于匿名的隐私保护模型不同,差分隐私保护模型提供了一种严格、可量化的隐私保护手段,且所提供的隐私保护强度不依赖于攻击者所掌握的背景知识。当前,在单方场景下,通过贝叶斯网络发布隐私的数据(privateDataReleaseviaBayesianNetworks,PrivBayes)技术解决了满足差分隐私的数据发布问题:它首先基于原始数据构建一个贝叶斯网络,接着在构建的贝叶斯网络中加入噪音,使其达到差分隐私保护要求;最后利用含有噪音的贝叶斯网络生成新的数据发布。然而由于算法本身是面向单方数据设计,PrivBayes在多方场景不可用。在多方场景下,现有的满足差分隐私保护的垂直分割数据发布方法(DistDiffGen)仅能够用于发布构建决策树分类 ...
【技术保护点】
1.一种数据集生成方法,其特征在于,包括:/n多方垂直分割数据的每个数据拥有者获取本地原始数据集中显变量对的互信息,生成叶子层隐变量;/n所述每个数据拥有者在本地建立树状索引,所述数据拥有者两两组合形成数据拥有者对,进行树状索引的匹配和叶子层隐变量之间的互信息的计算;/n所述每个数据拥有者执行隐树结构学习和隐树参数学习,各自在本地生成隐树;/n所述每个数据拥有者根据学习到的隐树结构和隐树参数自顶向下生成目标数据集。/n
【技术特征摘要】
1.一种数据集生成方法,其特征在于,包括:
多方垂直分割数据的每个数据拥有者获取本地原始数据集中显变量对的互信息,生成叶子层隐变量;
所述每个数据拥有者在本地建立树状索引,所述数据拥有者两两组合形成数据拥有者对,进行树状索引的匹配和叶子层隐变量之间的互信息的计算;
所述每个数据拥有者执行隐树结构学习和隐树参数学习,各自在本地生成隐树;
所述每个数据拥有者根据学习到的隐树结构和隐树参数自顶向下生成目标数据集。
2.根据权利要求1所述的数据集生成方法,其特征在于,每个数据拥有者获取本地原始数据集中显变量对的互信息,生成叶子层隐变量,包括:
将所述原始数据集进行预处理得到规整的显变量数据集,其中,所述预处理包括以下至少之一:统一编码、缺失数据填充、离散化、二进制化;
将所述显变量数据集中的显变量两两组合形成显变量对,计算出每对显变量之间的互信息,在满足差分隐私保护的条件下生成叶子层隐变量。
3.根据权利要求2所述的数据集生成方法,其特征在于,所述每个数据拥有者在本地建立树状索引,所述数据拥有者两两组合形成数据拥有者对,进行树状索引的匹配和叶子层隐变量之间的互信息的计算,包括:
对于所述每个数据拥有者,将所述叶子层隐变量两两组合形成隐变量对,计算出每对叶子层隐变量之间的互信息;
基于所述叶子层隐变量之间的互信息,在满足差分隐私保护的条件下对叶子层隐变量进行分组,生成上层隐变量,自底向上地重复由所述叶子层隐变量生成上层隐变量的步骤,直至上层隐变量只有一个隐变量节点;
将所述隐变量节点作为根节点,将所述根节点、父子节点之间的连接边、以及各个隐变量节点共同组成树状索引,将所述树状索引存储在数据拥有者的本地;
所述数据拥有者两两组合形成数据拥有者对,数据拥有者之间传递协商参数,其中所述参数包括以下至少之一:数据拥有者组合配对情况、数据拥有者对后续计算的执行次序、单个数据拥有者可以同时与其他数据拥有者进行通讯的最大数目;
每对数据拥有者在安全多方计算协议加密的条件下运行基于树状索引匹配的隐变量互信息计算;
多个数据拥有者在多方安全计算协议加密的条件下,将计算得到的隐变量对之间的互信息广播给其他所有数据拥有者,直至每个数据拥有者本地存储相同且完备的隐变量对之间的关联强度。
4.根据权利要求3所述的数据集生成方法,其特征在于,所述每个数据拥有者执行隐树结构学习和隐树参数学习,各自在本地生成隐树,包括:
每个所述数据拥有者独立地在本地运行最大生成树构建方法,以叶子层隐变量和显变量为节点,以变量之间的关联强度作为相应连接边的权值,构建权重和最小的无环连通图;
为所述无环连通图选择根节点,按照与所述根节点路径的长度为每一条连接边所连接的节点对确定父子关系,得到隐树结构。
5.根据权利要求4所述的数据集生成方法,其特征在于,所述每个数据拥有者根据学习到的隐树结构和参数自顶向下的生成目标数据集,包括:
所述每个数据拥有者在满足差分隐私保护的条件下,按照生成的所述隐树结构,自顶向下的为每一对相互连接的父子节点计算出所述父子节点间的条件概率;
所述每个数据拥有者计算所述根节点在原始数据集的概率分布,依据概率分布抽取所述根节点对应的生成数据集,然后自顶向下的逐层为每个节点计算出所述父子节点的联合分布概率,依据联合分布概率和随机分布来为每个节点生成含噪声的数据,生成目标数据集。
6.根据权利要求1所述的数据集生成方法,其特征在于,在所述每个数据拥有者根据学习到的隐树结构和参数自顶向下的生成目标数据集之后,还包括:
完成目标数据集生成的数据拥有者向其它数据拥有者发送消息,等待所有数据拥有者完成目标数据集的生成,向无法完成目标数据集生成的数据拥有者广播其所生成的目标数据集。
7.一种数据集生成装置,其特征在于,包括:
隐变量生成模块,用于为多方垂直分割数据的每个数据拥有者获取本地原始数据集中显变量对的互信息,生成叶子层隐变量;
互信息计算模块,用于为所述每个数据拥有者在本地建立树状索引,将所述数据拥有者两两...
【专利技术属性】
技术研发人员:牛家浩,申山宏,王德政,程祥,苏森,唐朋,邵华西,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。