伪数据生成装置、其方法和程序制造方法及图纸

技术编号:24335041 阅读:59 留言:0更新日期:2020-05-29 21:55
一种伪数据生成装置,根据编码规则将原始数据中包含的类别属性的值编码为数值属性的值;使用用于数值属性的伪数据生成方法,根据编码后的原始数据生成第一伪数据;在第一伪数据中包含的、与类别属性的值对应的数值属性的值超过该数值属性的值可取的值的范围的情况下,将该数值属性的值转换为包含于该数值属性的值可取的值的范围的值;根据编码规则,将转换后的第一伪数据中包含的与类别属性的值对应的数值属性的值解码为类别属性的值,作为伪数据。

Pseudo data generator, its method and program

【技术实现步骤摘要】
【国外来华专利技术】伪数据生成装置、其方法和程序
本专利技术涉及伪数据生成技术。
技术介绍
在隐私保护领域中,在由于安全等问题而不能处理包含个人信息的原始数据的情况下,有时作为代用而生成伪数据来进行分析等。这里,考虑根据表形式的原始数据生成表形式的伪数据的情形。表形式的数据的例子如图1所示。将表形式的数据视为矩阵,将行向量称为记录,将列向量称为属性。原始数据和伪数据的行数有时不同,但列数相同。将原始数据的行数设为n>0,将伪数据的行数设为n'>0。设在原始数据和伪数据中仅存储字符串。如图1所示,表形式的数据中有时包含年龄、身高、体重等数值属性、以及职业、最终学历、血型等类别属性。以往,在想要生成的伪数据是仅具有数值属性的表的情况下,存在通过以能够保持原始数据内的属性间的关系性(方差-协方差或相关等)的方式对随机数组进行整形来生成伪数据的方法。此外,作为保持包含数值属性和类别属性的原始数据的全部属性间的关系性的伪数据的生成方法,已知有非专利文献1。在非专利文献1中,列举了存在于原始数据内的所有类别的组,按照该类别的每个组生成保持原始数据的数值属性的性质的伪数据,通过合并来保持原始数据整体的属性间的性质。现有技术文献非专利文献非专利文献1:独立行政法人统计中心(独立行政法人統計センター),“教育用伪微观数据的开发及其利用~以平成16年全国消费实况调查为例~(教育用擬似ミクロデータの開発とその利用~平成16年全国消費実態調査を例として~)”、2012年.
技术实现思路
利技术所要解决的课题然而,在基于现有技术的包含类别属性的伪数据的生成中,需要生成与原始数据中存在的类别的组的数目相应的、保持属性间的性质的伪数据。因此,类别的组越增加,计算效率越差。本专利技术的一个目的在于,提供一种对于包含类别属性的伪数据,也以与仅包含数值属性的伪数据同样的效率,生成保持包含类别属性的原始数据的所有属性间的关系性的伪数据的伪数据生成装置、其方法和程序。用于解决课题的手段为了解决上述课题,根据本专利技术的一个方式,一种伪数据生成装置,包括:编码单元,根据编码规则将原始数据中包含的类别属性的值编码为数值属性的值;数据整形单元,通过使用用于数值属性的伪数据生成方法,根据编码后的原始数据生成第一伪数据;转换单元,在第一伪数据中包含的、与类别属性的值对应的数值属性的值超过该数值属性的值可取的值的范围的情况下,将该数值属性的值转换为包含于该数值属性的值可取的值的范围的值;以及解码单元,用于根据编码规则将转换后的第一伪数据中包含的与类别属性的值对应的数值属性的值解码为类别属性的值,并作为伪数据。为了解决上述课题,根据本专利技术的其他方式,一种伪数据生成装置进行的伪数据生成方法,包括:编码步骤,根据编码规则将原始数据中包含的类别属性的值编码为数值属性的值;数据整形步骤,通过使用用于数值属性的伪数据生成方法,根据编码后的原始数据生成第一伪数据;转换步骤,在第一伪数据中包含的、与类别属性的值对应的数值属性的值超过该数值属性的值可取的值的范围的情况下,将该数值属性的值转换为包含于该数值属性的值可取的值的范围的值;解码步骤,用于根据编码规则将转换后的第一伪数据中包含的与类别属性的值对应的数值属性的值解码为类别属性的值,并作为伪数据。专利技术效果根据本专利技术,起到如下效果:对于包含类别属性的伪数据,也能够以与仅包含数值属性的伪数据同样的效率,生成保持包含类别属性的原始数据的全部属性间的关系性的伪数据。附图说明图1是表示在本申请说明书中处理的表形式的数据的例子的图。图2是第一实施方式的伪数据生成装置的功能框图。图3是表示第一实施方式的伪数据生成装置的处理流程的例子的图。图4是表示编码规则的例子的图。图5是表示编码单元中的编码前的数据和编码后的数据的例子的图。具体实施方式以下,对本专利技术的实施方式进行说明。另外,在以下说明所使用的附图中,对具有相同功能的构成部和进行相同处理的步骤标注相同的符号,并省略重复说明。在以下的说明中,在文本中使用的符号“-”等原本应当直接记载在紧前的字符的正上方,但由于文本标记法的限制,记载在该字符的紧后。在式中,这些符号记载在本来的位置上。此外,以矢量或矩阵的各元素为单位进行的处理,只要没有特别说明,就适用于该矢量或该矩阵的所有元素。<第一实施方式的要点>对类别属性进行编码(例如二进制化)并转换为数值属性。例如,对原始数据的类别属性进行编码,转换为仅具有数值属性的表。通过用于任意的数值属性的伪数据生成方法,根据转换后的表生成仅具有数值属性的伪数据。通过将仅具有数值属性的伪数据的类别属性的数值解码为原类别值,生成包含类别属性的伪数据。由此,计算量较大的伪数据生成处理只需1次即可。因此,即使类别的组的数量增加,也能够高效地进行伪数据生成。换言之,由于能够一次性地进行保持属性间的性质的处理,因而计算效率提高。<第一实施方式>图2表示第一实施方式的伪数据生成装置的功能框图,图3表示其处理流程。第一实施方式的伪数据生成装置包括编码单元110、编码规则存储单元120、数据整形单元130、转换单元140和解码单元150。伪数据生成装置例如是在具有中央运算处理装置(中央处理器(CPU:CentralProcessingUnit))、主存储装置(随机存取内存(RAM:RandomAccessMemory))等的公知或专用的计算机中读入特殊的程序而构成的特殊的装置。伪数据生成装置例如在中央运算处理装置的控制下执行各个处理。输入到伪数据生成装置的数据和在各处理中得到的数据例如被存储在主存储装置中,主存储装置中存储的数据根据需要被读出到中央运算处理装置中而用于其他处理。伪数据生成装置的各处理单元的至少一部分可以由集成电路等硬件构成。伪数据生成装置所具备的各存储单元例如可以由RAM(RandomAccessMemory)等主存储装置、由硬盘或光盘或闪存(FlashMemory)那样的半导体存储元件构成的辅助存储装置、或者关系数据库或键-值存储(Key-ValueStore)等中间件构成。第一实施方式的伪数据生成装置将原始数据D和生成的伪数据中包含的记录数量n'作为输入,生成伪数据D'并将其输出。另外,以原始数据的各属性的直方图及二维交叉合计表、和伪数据的各属性的直方图及二维交叉合计表近似的方式生成伪数据D’。另外,近似的精度与包含在伪数据中的记录数量n'的大小相关,n'越大,近似的精度越容易变高。以下,说明各单元的处理内容。<编码规则存储单元120>编码规则存储单元120存储编码规则。图4表示编码规则的例子。例如,编码规则表示码与类别属性的值的对应关系。<编码单元110>输入:原始数据D输出:类别属性的各值被编码(数值矢量化)的表形式的数据(编码后的原始数据)X编码单元110根据编码本文档来自技高网...

【技术保护点】
1.一种伪数据生成装置,包括:/n编码单元,根据编码规则将原始数据中包含的类别属性的值编码为数值属性的值;/n数据整形单元,使用用于数值属性的伪数据生成方法,根据编码后的原始数据生成第一伪数据;/n转换单元,在所述第一伪数据中包含的、与所述类别属性的值对应的所述数值属性的值超过该数值属性的值可取的值的范围的情况下,将该数值属性的值转换为包含于该数值属性的值可取的值的范围的值;以及/n解码单元,根据所述编码规则,将转换后的第一伪数据中包含的与所述类别属性的值对应的所述数值属性的值解码为类别属性的值作为伪数据。/n

【技术特征摘要】
【国外来华专利技术】20171013 JP 2017-1992001.一种伪数据生成装置,包括:
编码单元,根据编码规则将原始数据中包含的类别属性的值编码为数值属性的值;
数据整形单元,使用用于数值属性的伪数据生成方法,根据编码后的原始数据生成第一伪数据;
转换单元,在所述第一伪数据中包含的、与所述类别属性的值对应的所述数值属性的值超过该数值属性的值可取的值的范围的情况下,将该数值属性的值转换为包含于该数值属性的值可取的值的范围的值;以及
解码单元,根据所述编码规则,将转换后的第一伪数据中包含的与所述类别属性的值对应的所述数值属性的值解码为类别属性的值作为伪数据。

【专利技术属性】
技术研发人员:冈田莉奈长谷川聪正木彰伍田中哲士
申请(专利权)人:日本电信电话株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1