【技术实现步骤摘要】
一种满足差分隐私的多方序列数据发布方法及系统
本公开涉及数据处理
,特别涉及一种满足差分隐私的多方序列数据发布方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
,并不必然构成现有技术。序列数据是一种常见的数据类型。给定一个字母表一个长度为len的序列s可表示为其中xi为中的一个符号(元素)。生活中常见的序列数据包括市民的出行轨迹、网民的浏览记录等。目前,传统的基于差分隐私技术的序列数据发布方法主要解决单方场景下序列数据发布问题。在单方场景下,单个数据拥有者拥有所有的序列数据,该数据拥有者在差分隐私条件下发布其序列数据集。其中,基于前缀树模型,有技术人员提出了一种满足差分隐私的序列数据发布方法。该方法在差分隐私条件下利用原始序列数据构建前缀树模型,然后利用该模型生成新的序列数据;基于变长n-gram模型,有研究人员提出一种满足差分隐私的序列数据发布方法。该方法在差分隐私条件下利用原始序列数据构建n-gram模型,然后利用构建的n-gram模型生成新的序列数据。然而,对于以上两种方法,如果构建的 ...
【技术保护点】
1.一种满足差分隐私的多方序列数据发布方法,其特征在于,应用于第一终端,包括以下步骤:/n对持有的数据序列进行预处理;/n接收第二终端发来的仅包含根节点的预测后缀树和节点队列,在满足差分隐私的条件下,根据预处理后的数据序列,采用批处理的处理方式判断节点队列中的节点是否需要拆分,并将判断结果发送给第二终端,以使得第二终端得到最终的预测后缀树的结构;/n在满足差分隐私的条件下,计算节点的预测直方图,得到预测后缀树的参数,并发送给第二终端,使得第二终端根据预测后缀树的结构和参数生成一组新的整体序列数据集。/n
【技术特征摘要】
1.一种满足差分隐私的多方序列数据发布方法,其特征在于,应用于第一终端,包括以下步骤:
对持有的数据序列进行预处理;
接收第二终端发来的仅包含根节点的预测后缀树和节点队列,在满足差分隐私的条件下,根据预处理后的数据序列,采用批处理的处理方式判断节点队列中的节点是否需要拆分,并将判断结果发送给第二终端,以使得第二终端得到最终的预测后缀树的结构;
在满足差分隐私的条件下,计算节点的预测直方图,得到预测后缀树的参数,并发送给第二终端,使得第二终端根据预测后缀树的结构和参数生成一组新的整体序列数据集。
2.如权利要求1所述的满足差分隐私的多方序列数据发布方法,其特征在于,所述预处理,具体为:为数据序列添加开始符号和结束符号,对长度大于预设阈值的数据序列进行截断;
或者,所述第一终端与第二终端进行数据交互,共同执行节点拆分判别协议,判断每个节点是否需要拆分;
或者,所述批处理的方式,具体为:通过数据块的方式进行任务划分,每个块包含多个任务,每个块中的任务来自不同的节点,且来自不同节点的任务数量不同,每个块所包含的总的任务数量固定;
对于来自某一节点的任务,它们在块中的位置不断向下滑动,使得位于任意一个块的最低端的任务是某个节点的最后一个任务;
或者,计算节点的预测直方图,具体为:
对于所有叶子节点,计算其后缀直方图,并为后缀直方图的各维数据注入拉普拉斯噪音,每次注入噪音的过程满足差分隐私;
对于所有非叶子节点,其后缀直方图为以该节点为根节点的子树中所有叶子节点的后缀直方图之和;
或者,新的整体序列数据集的每一条序列的生成方法,具体为::
初始化序列s0=$后,在序列末端依次插入字符;
第i次插入过程为:对于当前已生成的序列si-1=$x1x2…xi-1,在τ中找到预测序列等于当前生成序列的节点,根据预设概率分布选取符号xi插入si-1末端,即生成新的子序列si;
若xi≠&,继续执行插入过程;否则,则该条序列生成结束,其中$为开始符合,&为结束符号。
3.一种数据提供装置,其特征在于,包括处理器,所述处理器与外置的第二终端通信连接,所述处理器被配置为:
对持有的数据序列进行预处理;
接收第二终端发来的仅包含根节点的预测后缀树和节点队列,在满足差分隐私的条件下,根据预处理后的数据序列,采用批处理的处理方式判断节点队列中的节点是否需要拆分,并将判断结果发送给第二终端,以使得第二终端得到最终的预测后缀树的结构;
在满足差分隐私的条件下,计算节点的预测直方图,得到预测后缀树的参数,并发送给第二终端,使得第二终端根据预测后缀树的结构和参数生成一组新的整体序列数据集。
4.如权利要求3所述的数据提供装置,其特征在于,所述预处理,具体为:为数据序列添加开始符号和结束符号,对长度大于预设阈值的数据序列进行截断;
或者,所述处理器与第二终端进行数据交互,共同执行节点拆分判别协议,判断每个节点是否需要拆分;
或者,所述批处理的方式,具体为:通过数据块的方式进行任务划分,每个块包含多个任务,每个块中的任务来自不同的节点,且来自不同节点的任务数量不同,每个块所包含的总的任务数量固定,且对于来自某一节点的任务,它们在块中的位置不断向下滑动,使得位于任意一个块的最低端的任务是某个节点的最后一个任务;
或者,计算节点的预测直方图,具体为:
对于所有叶子节点,计算其后缀直方图,并为后缀直方图的各维数据注入拉普拉斯噪音,每次注入噪音的过程满足差分隐私;
对于所有非叶子节点,其后缀直方图为以该节点为根节点的子树中所有叶子节点的后缀直方图之和;
或者,新的整体序列数据集的每一条序列的生成方法,具体为::
初始化序列s0=$后,在序列末端依次插入字符;
第i次插入过程为:对于当前已生成的序列si-1=$x1x2…xi-1,在τ中找到预测序列等于当前生成序列的节点,根据预设概率分布选取符号xi插入si-1末端,即生成新的子序列si;
若xi≠&,继续执行插入过程;否则,则该条序列生成结束,其中$为开始符合,&为结束符号。
5.一种满足差分隐私的多方序列数据发布方法,其特征在于,应用于第二终端,包括以下步骤:
初始化一棵仅包含根节点的预测后缀树,并初始化一个节点队列用于存储未遍历的节点,并将根节点插入队列;
接收第一终端发来的节点拆分判断结果,当所有节点拆分完毕时,得到最终的预测后缀树的结构;
接收第一终端发来的节点的预测直方图,得到预测后缀树的参数,根据预测后缀树的结构和参数生成一组新的整体序列数据集。
6.如权利要求5所述的满足差分隐私的多方序列数据发布方法,其特征在于,所述预处理,具体为:为数据序列添加开始符号和结束符号,对长度大于预设阈值的数据序列进行截断;
或者,所述第二终...
【专利技术属性】
技术研发人员:唐朋,郭山清,鞠雷,刘高源,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。