数据处理装置、数据处理方法和数据处理程序制造方法及图纸

技术编号:35435832 阅读:26 留言:0更新日期:2022-11-03 11:43
提供了一种数据处理装置,包括:噪声分布预测单元,预测在外部的噪声添加装置中通过将噪声添加到原始数据而产生的噪声添加数据中的噪声的分布;以及增强处理单元,基于噪声分布的预测结果对噪声添加数据执行增强处理。布的预测结果对噪声添加数据执行增强处理。布的预测结果对噪声添加数据执行增强处理。

【技术实现步骤摘要】
【国外来华专利技术】数据处理装置、数据处理方法和数据处理程序


[0001]本技术涉及数据处理装置、数据处理方法和数据处理程序。

技术介绍

[0002]近年来,随着互联网的发展和能够连接到互联网的装置的普及,装置中的各种数据由提供互联网服务的公司、开发和知道装置的公司等收集,并且用于服务改进、产品开发等。这些数据中的有用数据之一是关于使用该装置的个人用户的数据。存在关于个人用户的多种数据,诸如装置的使用方法和经由装置的互联网上的服务的使用状态。
[0003]虽然这种关于个人用户的数据具有高利用价值,但是存在由于数据泄露、数据处理方法等侵犯用户的隐私的问题。因此,称为差分隐私的技术用于防止侵犯隐私(专利文献1)。
[0004]差分隐私是使得可以在防止识别作为数据的核心的用户等的同时通过向收集的数据添加噪声来使用数据本身的技术。对“一些数据属于特定用户”的假设不能给出特定等级或更高的统计置信度。由于数学安全性甚至针对任意背景知识的攻击被给予,因此差分隐私具有定量地评估对隐私的影响的特征。即使在没有用户的同意的情况下收集数据的情况下,差分隐私的使用也允许防止侵犯用户隐私。差分隐私包括输出型差分隐私和本地型差分隐私。
[0005]输出型差分隐私从装置收集原始数据并在云中构建的数据库中管理该数据。当访问数据库并且利用数据时,数据的用户添加噪声并且展现数据,从而保护用户的隐私。因为提供云服务的业务运营商管理原始数据,所以存在关于由收集的原始数据引起的用户的心理障碍、当数据泄露时业务运营商的业务风险等的担忧。
[0006]本地型差分隐私是由用户具有的装置添加噪声并且在云中收集匿名化数据的方法。当利用数据时,可以从云获得去除了噪声的统计值。由于以匿名化的状态收集数据,用户的心理障碍低,并且商业运营者在数据泄露时的商业风险也小。
[0007]引用列表
[0008]专利文献
[0009]专利文献1:RAPPOR:Randomized Aggregatable Privacy

Preserving Ordinal Response

技术实现思路

[0010]本专利技术要解决的问题
[0011]由于此类差分隐私在存在大量要收集的数据时更精确,因此通常假定存在大量要收集的数据。然而,根据数据的类型,可能不能收集大量的数据,并且对于这样的数据,存在不能适当地使用差分隐私的问题。
[0012]鉴于这些点做出本技术,并且目的是提供数据处理装置、数据处理方法以及数据处理程序,该数据处理装置、数据处理方法以及数据处理程序即使在少量数据的情况下也
可以通过将噪声加入数据中并且增加数据量来减小统计结果的误差。
[0013]问题的解决方案
[0014]为了解决上述问题,第一技术是一种数据处理装置,包括:噪声分布预测单元,被配置为预测通过在外部的噪声添加装置中将噪声添加到原始数据所产生的噪声添加数据中的噪声分布;以及增强处理单元,被配置为基于噪声分布的预测结果对噪声添加数据执行增强处理。
[0015]此外,第二种技术是一种数据处理方法,包括:预测通过在外部的噪声添加装置中将噪声添加到原始数据所产生的噪声添加数据中的噪声的分布;以及基于噪声分布的预测结果对噪声添加数据执行增强处理。
[0016]此外,第三技术是一种用于使计算机执行数据处理方法的数据处理程序,数据处理方法包括:预测通过在外部的噪声添加装置中将噪声添加到原始数据所产生的噪声添加数据中的噪声的分布;以及基于噪声分布的预测结果对噪声添加数据执行增强处理。
附图说明
[0017][图1]是用于描述差分隐私的概况的示图。
[0018][图2]是示出了样本大小、字典大小、以及误差之间的关系的一组曲线图。
[0019][图3]图3A至图3E是示出数据分布与误差之间的关系的一组曲线图,并且图3F是示出数据分布的相对误差的曲线图。
[0020][图4]是示出了数据分布与隐私指数之间的关系的曲线图。
[0021][图5]为示出变化系数与相对误差之间的关系的曲线图。
[0022][图6]是样本大小和噪声的说明图。
[0023][图7]是示出数据处理系统10的配置的框图。
[0024][图8]是示出使用初级网格覆盖日本的整个区域的状态的示图。
[0025][图9]是示出终端装置100的配置的框图。
[0026][图10]是示出噪声添加装置200的配置的框图。
[0027][图11]是使用区域网格作为实例的低阶数据和高阶数据的说明图。
[0028][图12]是使用区域网格作为实例对低阶数据和高阶数据添加噪声的说明图。
[0029][图13]是示出服务器装置300的配置的框图。
[0030][图14]是示出数据处理装置400的配置的框图。
[0031][图15]是每个区域网格(数据类型)的计数值(样本大小)的说明图。
[0032][图16]是示出噪声添加装置200中的处理的流程图。
[0033][图17]是示出数据处理装置400中的处理的流程图。
[0034][图18]是数据扩展处理的说明图。
[0035][图19]是数据扩展处理的说明图。
[0036][图20]是示出了噪声分布预测结果的曲线图。
[0037][图21]是示出增强处理的流程图。
[0038][图22]是通过增强处理添加噪声的计数值(样本大小)的说明图。
[0039][图23]是示出了原始数据与增强数据之间的比较的曲线图。
[0040][图24]图24A是原始数据和噪声添加数据的比较图,图24B是具有变化的噪声和具
有均匀分布的噪声的比较图,图24C是原始数据和增强数据的比较图。
具体实施方式
[0041]下面将参考附图描述本技术的实施方式。注意,将按照以下顺序进行描述。
[0042]<1.差分隐私的描述>
[0043]<2.实施例>
[0044][2

1.数据处理系统10的配置][0045][2

2.区域网格的描述][0046][2

3.终端装置100和噪声添加装置200的配置][0047][2

4.服务器装置300和数据处理装置400的配置][0048][2

5.噪声添加装置200中的处理][0049][2

6.数据处理装置400中的处理][0050]<3.变形例>
[0051]<1.差分隐私的描述>
[0052]首先,在描述本技术的实施方式之前,将描述在本技术中使用的差分隐私。差分隐私是使得可以通过向收集的数据添加噪声来在防止识别作为数据的核心的用户等的同时使用数据本身的技术。本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种数据处理装置,包括:噪声分布预测单元,被配置为预测通过在外部的噪声添加装置中将噪声添加到原始数据所产生的噪声添加数据中的噪声分布;以及增强处理单元,被配置为基于所述噪声分布的预测结果对所述噪声添加数据执行增强处理。2.根据权利要求1所述的数据处理装置,其中在所述噪声添加装置中,将所述噪声分别添加到高阶数据和低等级的低阶数据中,其中,所述低等级的低阶数据是所述原始数据,所述高阶数据是比所述低等级高的等级的数据。3.根据权利要求2所述的数据处理装置,其中在所述外部装置中,从所述低阶数据生成所述高阶数据。4.根据权利要求1所述的数据处理装置,其中在所述噪声添加装置中,噪声添加到高阶数据中的高阶噪声添加数据和噪声添加到低阶数据中的低阶噪声添加数据包括比特串。5.根据权利要求1所述的数据处理装置,其中所述噪声分布预测单元通过对高阶噪声添加数据与低阶噪声添加数据进行比较并且判定构成所述低阶噪声添加数据的比特串的比特是否为所述噪声,预测所述低阶噪声添加数据中的噪声分布。6.根据权利要求5所述的数据处理装置,进一步包括:数据扩展单元,被配置为对所述高阶噪声添加数据进行扩展处理,以比较所...

【专利技术属性】
技术研发人员:梅田哲士丸山信也
申请(专利权)人:索尼集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1