数据集生成方法及装置制造方法及图纸

技术编号:22914201 阅读:47 留言:0更新日期:2019-12-24 21:53
本发明专利技术提供了一种数据集生成方法及装置,该方法包括:多方垂直分割数据的每个数据拥有者计算本地原始数据集中显变量对的互信息,生成叶子层隐变量;每个数据拥有者在本地建立树状索引,数据拥有者两两组合形成数据拥有者对,进行树状索引的匹配和叶子层隐变量之间的互信息的计算;每个数据拥有者执行隐树结构学习和隐树参数学习,各自在本地生成隐树;每个数据拥有者根据学习到的隐树结构和隐树参数自顶向下生成目标数据集。

【技术实现步骤摘要】
数据集生成方法及装置
本专利技术涉及数据安全领域,具体而言,涉及一种数据集生成方法及装置。
技术介绍
随着智慧城市、智能电网、智慧医疗等数字化技术的快速发展和移动终端设备的广泛普及,人们的衣食住行、健康医疗等信息被数字化,每天产生海量数据,促成了大数据时代的到来。大量的数据往往由不同的数据拥有者所有,例如,医院和金融机构分别拥有一组医疗数据和金融数据。当分布在多方的数据具有相同的ID包含不同的属性时,称之为多方垂直分割数据。发布多方垂直分割数据,有利于数据分析者充分分析和挖掘数据中潜在价值。然而,垂直分割数据中往往包含个体大量敏感信息,直接发布这种数据将不可避免地泄露个体隐私信息。差分隐私保护模型的提出为解决满足隐私保护的数据发布问题提供了一种可行的方案。与基于匿名的隐私保护模型不同,差分隐私保护模型提供了一种严格、可量化的隐私保护手段,且所提供的隐私保护强度不依赖于攻击者所掌握的背景知识。当前,在单方场景下,通过贝叶斯网络发布隐私的数据(privateDataReleaseviaBayesianNetworks,PrivBayes)技术解决了满足差分隐私的数据发布问题:它首先基于原始数据构建一个贝叶斯网络,接着在构建的贝叶斯网络中加入噪音,使其达到差分隐私保护要求;最后利用含有噪音的贝叶斯网络生成新的数据发布。然而由于算法本身是面向单方数据设计,PrivBayes在多方场景不可用。在多方场景下,现有的满足差分隐私保护的垂直分割数据发布方法(DistDiffGen)仅能够用于发布构建决策树分类器所需的统计信息,因此,该方法仅是一种与具体数据分析任务绑定的数据发布方法。目前,实际应用中满足差分隐私保护的垂直分割数据发布方法仅能够应用于基于决策树的分类任务,而对于其他类型分类任务、聚类任务、统计分析任务等数据分析和挖掘任务则不可用。
技术实现思路
本专利技术实施例提供了一种数据集生成方法及装置,以至少解决相关技术中数据的隐私保护问题。根据本专利技术的一个方面,提供了一种数据集生成法,包括:每个数据拥有者获取本地原始数据集中显变量对的互信息,生成叶子层隐变量;所述每个数据拥有者在本地建立树状索引,所述数据拥有者两两组合形成数据拥有者对,进行树状索引的匹配和叶子层隐变量之间的互信息的计算;所述每个数据拥有者执行隐树结构学习和隐树参数学习,各自在本地生成隐树;所述每个数据拥有者根据学习到的隐树结构和隐树参数自顶向下生成目标数据集。根据本专利技术的另一方面,提供了一种数据集生成装置,该装置包括:隐变量生成模块,用于为每个数据拥有者获取本地原始数据集中显变量对的互信息,生成叶子层隐变量;互信息计算模块,用于为所述每个数据拥有者在本地建立树状索引,将所述数据拥有者两两组合形成数据拥有者对,进行树状索引的匹配和叶子层隐变量之间的互信息的计算;隐树生成模块,用于为所述每个数据拥有者执行隐树结构学习和隐树参数学习,各自在本地生成隐树;数据集生成模块,用于为所述每个数据拥有者根据学习到的隐树结构和隐树参数自顶向下生成目标数据集。根据本专利技术的又一方面,还提供了一种数据集生成系统,该系统包括前文实施例中的多个数据集生成装置,其中,每个数据集生成装置对应一个数据拥有者的数据处理,所有数据集生成装置通过网络相连接。根据本专利技术的再一方面,还提供了一种存储介质,所述存储介质中存储有计算机可读程序,其中,所述程序运行时执行前文实施例中的方法步骤。在本专利技术上述实施例中,通过采用隐树模型来建模垂直分割于多个数据拥有者之间的数据集分布,依据学习到的隐树模型联合发布含噪声的数据集,减少了噪音加入的量,保证在多方垂直分割数据的发布过程中,满足对于所发布的数据集的差分隐私的要求,同时发布的整体数据能够支持多种数据分析任务。附图说明图1是根据本专利技术实施例的系统架构示意图;图2是根据本专利技术实施例的数据集生成方法流程图;图3是根据本专利技术实施例的多方垂直分割的数据发布方法流程图;图4是根据本专利技术实施例的数据集生成装置的结构框图;图5是根据本专利技术实施例的多方垂直分割的数据发布装置的结构框图;图6是根据本专利技术实施例一的方法流程图;图7是根据本专利技术实施例二的方法流程图;图8是根据本专利技术实施例三的方法流程图;图9是根据本专利技术实施例四的方法流程图。具体实施方式下文中将参考附图结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本专利技术通过下面的实施例提供了一种与具体数据分析任务无关的、满足差分隐私保护的多方垂直分割数据发布的方法。使得在大数据环境下,在多方垂直分割数据的发布过程中,既满足了对于所发布的数据集的差分隐私的要求,同时又使得发布的整体数据能够支持多种数据分析任务。从而实现在保护个体隐私的前提下,数据分析者可以充分地分析挖掘数据中的价值,为决策支持和科学研究提供更多依据。需要说明的是,在本专利技术的实施例中,数据拥有者并不是指具体的人,而是指多方垂直分割数据的所有方,其可以是对多方垂直分割数据进行处理的各种数据处理装置。例如,数据库、大数据平台、服务器等,每个数据拥有者都有各自的数据(即保存在数据仓库或者数据库中的数据)。图1为本专利技术的实施例的系统架构。如图1所示,具有相同的ID,但包含不同的属性的多方垂直分割数据(例如,医疗数据或金融数据)分布在三个不同的数据拥有者上。在本实施例中,所述数据拥有者可以为服务器,因此,服务器1、服务器2和服务器3分别代表不同的数据拥有者。其中,服务器1、服务器2和服务器3之间通过有线或无线网络连接。在本实施例中,连接服务器1、服务器2和服务器3的网络形式和拓扑结构不受限制。主要取决于各个数据拥有者之间的地理分布和实际需要。例如,可以是局域网,也可以是因特网,或者是其他专用网络。通过所连接的网络,各服务器之间可以发送心跳信息,注册成为多方垂直分割数据发布参与者,并发布所生成的多方垂直分割数据集等。通过在图1所示系统架构上运行本专利技术实施例所提供的技术方案,可以保证在多方垂直分割数据的发布过程中,既满足对于所发布的数据集的差分隐私的要求,同时发布的整体数据能够支持多种数据分析任务。在本实施例中提供了一种数据集生成方法,所述方法可以基于上述实施例的系统架构来实现。图2是根据本专利技术实施例的数据集生成方法的流程图。在本实施例中包括了多个数据拥有者,如图2所示,该流程包括如下步骤:步骤S202,每个数据拥有者计算本地原始数据集中显变量对的互信息,生成叶子层隐变量。步骤S204,所述每个数据拥有者在本地建立树状索引,所述数据拥有者两两组合形成数据拥有者对,进行树状索引的匹配和叶子层隐变量之间的互信息的计算。步骤S206,所述每个数据拥有者执行隐树结构学习和隐树参数学习,各自在本地生成隐树。步骤S208,所述每个数据拥有者根据学习到的隐树结构和隐树参数自顶向下的生成目标数据集。在上述的实施本文档来自技高网
...

【技术保护点】
1.一种数据集生成方法,其特征在于,包括:/n多方垂直分割数据的每个数据拥有者获取本地原始数据集中显变量对的互信息,生成叶子层隐变量;/n所述每个数据拥有者在本地建立树状索引,所述数据拥有者两两组合形成数据拥有者对,进行树状索引的匹配和叶子层隐变量之间的互信息的计算;/n所述每个数据拥有者执行隐树结构学习和隐树参数学习,各自在本地生成隐树;/n所述每个数据拥有者根据学习到的隐树结构和隐树参数自顶向下生成目标数据集。/n

【技术特征摘要】
1.一种数据集生成方法,其特征在于,包括:
多方垂直分割数据的每个数据拥有者获取本地原始数据集中显变量对的互信息,生成叶子层隐变量;
所述每个数据拥有者在本地建立树状索引,所述数据拥有者两两组合形成数据拥有者对,进行树状索引的匹配和叶子层隐变量之间的互信息的计算;
所述每个数据拥有者执行隐树结构学习和隐树参数学习,各自在本地生成隐树;
所述每个数据拥有者根据学习到的隐树结构和隐树参数自顶向下生成目标数据集。


2.根据权利要求1所述的数据集生成方法,其特征在于,每个数据拥有者获取本地原始数据集中显变量对的互信息,生成叶子层隐变量,包括:
将所述原始数据集进行预处理得到规整的显变量数据集,其中,所述预处理包括以下至少之一:统一编码、缺失数据填充、离散化、二进制化;
将所述显变量数据集中的显变量两两组合形成显变量对,计算出每对显变量之间的互信息,在满足差分隐私保护的条件下生成叶子层隐变量。


3.根据权利要求2所述的数据集生成方法,其特征在于,所述每个数据拥有者在本地建立树状索引,所述数据拥有者两两组合形成数据拥有者对,进行树状索引的匹配和叶子层隐变量之间的互信息的计算,包括:
对于所述每个数据拥有者,将所述叶子层隐变量两两组合形成隐变量对,计算出每对叶子层隐变量之间的互信息;
基于所述叶子层隐变量之间的互信息,在满足差分隐私保护的条件下对叶子层隐变量进行分组,生成上层隐变量,自底向上地重复由所述叶子层隐变量生成上层隐变量的步骤,直至上层隐变量只有一个隐变量节点;
将所述隐变量节点作为根节点,将所述根节点、父子节点之间的连接边、以及各个隐变量节点共同组成树状索引,将所述树状索引存储在数据拥有者的本地;
所述数据拥有者两两组合形成数据拥有者对,数据拥有者之间传递协商参数,其中所述参数包括以下至少之一:数据拥有者组合配对情况、数据拥有者对后续计算的执行次序、单个数据拥有者可以同时与其他数据拥有者进行通讯的最大数目;
每对数据拥有者在安全多方计算协议加密的条件下运行基于树状索引匹配的隐变量互信息计算;
多个数据拥有者在多方安全计算协议加密的条件下,将计算得到的隐变量对之间的互信息广播给其他所有数据拥有者,直至每个数据拥有者本地存储相同且完备的隐变量对之间的关联强度。


4.根据权利要求3所述的数据集生成方法,其特征在于,所述每个数据拥有者执行隐树结构学习和隐树参数学习,各自在本地生成隐树,包括:
每个所述数据拥有者独立地在本地运行最大生成树构建方法,以叶子层隐变量和显变量为节点,以变量之间的关联强度作为相应连接边的权值,构建权重和最小的无环连通图;
为所述无环连通图选择根节点,按照与所述根节点路径的长度为每一条连接边所连接的节点对确定父子关系,得到隐树结构。


5.根据权利要求4所述的数据集生成方法,其特征在于,所述每个数据拥有者根据学习到的隐树结构和参数自顶向下的生成目标数据集,包括:
所述每个数据拥有者在满足差分隐私保护的条件下,按照生成的所述隐树结构,自顶向下的为每一对相互连接的父子节点计算出所述父子节点间的条件概率;
所述每个数据拥有者计算所述根节点在原始数据集的概率分布,依据概率分布抽取所述根节点对应的生成数据集,然后自顶向下的逐层为每个节点计算出所述父子节点的联合分布概率,依据联合分布概率和随机分布来为每个节点生成含噪声的数据,生成目标数据集。


6.根据权利要求1所述的数据集生成方法,其特征在于,在所述每个数据拥有者根据学习到的隐树结构和参数自顶向下的生成目标数据集之后,还包括:
完成目标数据集生成的数据拥有者向其它数据拥有者发送消息,等待所有数据拥有者完成目标数据集的生成,向无法完成目标数据集生成的数据拥有者广播其所生成的目标数据集。


7.一种数据集生成装置,其特征在于,包括:
隐变量生成模块,用于为多方垂直分割数据的每个数据拥有者获取本地原始数据集中显变量对的互信息,生成叶子层隐变量;
互信息计算模块,用于为所述每个数据拥有者在本地建立树状索引,将所述数据拥有者两两...

【专利技术属性】
技术研发人员:牛家浩申山宏王德政程祥苏森唐朋邵华西
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1