伪数据生成装置、其方法和程序制造方法及图纸

技术编号:24335041 阅读:71 留言:0更新日期:2020-05-29 21:55
一种伪数据生成装置,根据编码规则将原始数据中包含的类别属性的值编码为数值属性的值;使用用于数值属性的伪数据生成方法,根据编码后的原始数据生成第一伪数据;在第一伪数据中包含的、与类别属性的值对应的数值属性的值超过该数值属性的值可取的值的范围的情况下,将该数值属性的值转换为包含于该数值属性的值可取的值的范围的值;根据编码规则,将转换后的第一伪数据中包含的与类别属性的值对应的数值属性的值解码为类别属性的值,作为伪数据。

Pseudo data generator, its method and program

【技术实现步骤摘要】
【国外来华专利技术】伪数据生成装置、其方法和程序
本专利技术涉及伪数据生成技术。
技术介绍
在隐私保护领域中,在由于安全等问题而不能处理包含个人信息的原始数据的情况下,有时作为代用而生成伪数据来进行分析等。这里,考虑根据表形式的原始数据生成表形式的伪数据的情形。表形式的数据的例子如图1所示。将表形式的数据视为矩阵,将行向量称为记录,将列向量称为属性。原始数据和伪数据的行数有时不同,但列数相同。将原始数据的行数设为n>0,将伪数据的行数设为n'>0。设在原始数据和伪数据中仅存储字符串。如图1所示,表形式的数据中有时包含年龄、身高、体重等数值属性、以及职业、最终学历、血型等类别属性。以往,在想要生成的伪数据是仅具有数值属性的表的情况下,存在通过以能够保持原始数据内的属性间的关系性(方差-协方差或相关等)的方式对随机数组进行整形来生成伪数据的方法。此外,作为保持包含数值属性和类别属性的原始数据的全部属性间的关系性的伪数据的生成方法,已知有非专利文献1。在非专利文献1中,列举了存在于原始数据内的所有类别的组,按照该类别的每个组生成保持原始数据的数值属性本文档来自技高网...

【技术保护点】
1.一种伪数据生成装置,包括:/n编码单元,根据编码规则将原始数据中包含的类别属性的值编码为数值属性的值;/n数据整形单元,使用用于数值属性的伪数据生成方法,根据编码后的原始数据生成第一伪数据;/n转换单元,在所述第一伪数据中包含的、与所述类别属性的值对应的所述数值属性的值超过该数值属性的值可取的值的范围的情况下,将该数值属性的值转换为包含于该数值属性的值可取的值的范围的值;以及/n解码单元,根据所述编码规则,将转换后的第一伪数据中包含的与所述类别属性的值对应的所述数值属性的值解码为类别属性的值作为伪数据。/n

【技术特征摘要】
【国外来华专利技术】20171013 JP 2017-1992001.一种伪数据生成装置,包括:
编码单元,根据编码规则将原始数据中包含的类别属性的值编码为数值属性的值;
数据整形单元,使用用于数值属性的伪数据生成方法,根据编码后的原始数据生成第一伪数据;
转换单元,在所述第一伪数据中包含的、与所述类别属性的值对应的所述数值属性的值超过该数值属性的值可取的值的范围的情况下,将该数值属性的值转换为包含于该数值属性的值可取的值的范围的值;以及
解码单元,根据所述编码规则,将转换后的第一伪数据中包含的与所述类别属性的值对应的所述数值属性的值解码为类别属性的值作为伪数据。

【专利技术属性】
技术研发人员:冈田莉奈长谷川聪正木彰伍田中哲士
申请(专利权)人:日本电信电话株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1