用于生成合成数据的系统和方法技术方案

技术编号:43518117 阅读:25 留言:0更新日期:2024-12-03 12:08
本公开涉及用于生成合成数据的系统和方法。实体维持大量数据,并且在维持个人可识别信息(PII)的数据隐私的同时对这些大型数据集进行概率分布和/或相关性分析是困难的。本申请描述了用于识别包括PII的数据字段并合成数据以使得PII被移除但保持概率分布和/或相关性度量的完整性的方法。某些数据基于数据表类型被分组成数据字段,并且每个数据类型可以被分配某种数据分析策略,策略可以包括联合概率分布、特征库数据伪造器、遗传正则表达式生成器和/或时间序列模型。可以生成表草图,其可以包括要在未来数据查询中使用的至少一个合成器配方。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及生成合成数据、计算数据集中的概率分布以及计算数据集中的概率相关性。


技术介绍

1、实体维持大量数据。分析这种大量数据通常涉及分析概率分布和/或概率相关性。概率分布是函数所操作的相同数据集的上的度量。概率相关性测量随机过程中在不同时间的值的相关性,其依赖于随机过程的期望值和方差。通常,相关性或依赖性是两个随机变量或双变量数据之间的任何统计关系,无论是否是因果关系。

2、用于分析大型数据集的当前模型可能精通创建准确的概率分布,但是这种当前模型缺乏创建质量相关性模型。附加地,当在大型数据集中创建概率分布和概率相关性时,当前模型无法确保个人可识别信息(pii)受到保护。因此,对能够解决关于概率分布和相关性的创建的现代数据分析的挑战,同时维持数据集中包括的某些pii的隐私的系统和方法的需求增加。

3、关于这些和其他一般考虑,已经做出了本文公开的各方面。此外,尽管可以讨论相对具体的问题,但是应当理解,示例不应被限制为解决在
技术介绍
中或本公开的其他地方标识的具体问题。


技术实现思路

【技术保护点】

1.一种用于生成合成数据的系统,包括:

2.根据权利要求1所述的系统,所述处理器还被配置为:

3.根据权利要求2所述的系统,其中,所述多个组包括以下中的至少一个:唯一的、主要唯一的和主要不唯一的。

4.根据权利要求1所述的系统,所述处理器还被配置为:

5.根据权利要求4所述的系统,其中,所述包括PII的至少一个数据字段被识别为主要唯一的。

6.根据权利要求1所述的系统,所述处理器还被配置为:

7.根据权利要求6所述的系统,所述处理器还被配置为:

8.根据权利要求7所述的系统,其中,所述至少一个合成数据字段...

【技术特征摘要】
【国外来华专利技术】

1.一种用于生成合成数据的系统,包括:

2.根据权利要求1所述的系统,所述处理器还被配置为:

3.根据权利要求2所述的系统,其中,所述多个组包括以下中的至少一个:唯一的、主要唯一的和主要不唯一的。

4.根据权利要求1所述的系统,所述处理器还被配置为:

5.根据权利要求4所述的系统,其中,所述包括pii的至少一个数据字段被识别为主要唯一的。

6.根据权利要求1所述的系统,所述处理器还被配置为:

7.根据权利要求6所述的系统,所述处理器还被配置为:

8.根据权利要求7所述的系统,其中,所述至少一个合成数据字段的联合概率分布与所述包括pii的至少一个数据字段的所述联合概率分布相关。

9.根据权利要求1所述的系统,其中,所述表类型是以下中的至少一个:时间序列表、事务表和主表。

10.根据权利要求1所述的系统,其中,所述数据类型是以下中的至少一个:pii类型、唯一类型、分类类型、数字类型和时间段类型。

11.根据权利要求1所述的系统,其中,所述至少一个数据分析策略是以下中的至少一个:联合概率分布、特征库rnn数据伪造器、遗传正...

【专利技术属性】
技术研发人员:G·德派佩V·弗罗延K·舒斯特M·坦德基A·菲利皮亚克
申请(专利权)人:科里布拉比利时股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1