【技术实现步骤摘要】
本专利技术涉及一种用于对多关系数据集中的数据进行匿名化的计算系统、一种相关方法以及一种计算机程序产品。
技术介绍
1、诸如医学类的数据集可以保存在医学数据库或其他数据存储单元中。这样的数据集可能涉及患者、其健康记录、病史等。数据集是已经发现的有价值的资源。这样的数据集可以用于许多应用中。示例包括训练用于医学应用、药物发现或医学数据分析的机器学习模型,以找到新的模式并获得新的见解。这些用途中的每一种都可以改进医疗保健。然而,使用这样的数据集可能从患者角度作为患者数据(包括机密数据)带来风险,可能会泄漏而产生不希望的后果。
2、已经提出了数据匿名化以解决数据泄漏问题。在数据匿名化中,数据集中的原始数据至少部分地由被认为对于释放足够安全的某些其他数据替换,因为这样的替换数据降低了个体患者可被识别的风险。数据匿名化可以包括移除一些原始数据。然而,已经发现一些当前的匿名化方法可能产生低质量和/或低安全水平的匿名化数据。
3、特别地,多关系数据集的匿名化研究还不够深入。例如,对这样的多关系数据集进行匿名化可能需要同时处理关系
...【技术保护点】
1.一种用于对多关系数据集进行匿名化的计算系统(SYS),包括:
2.根据权利要求1所述的系统,其中,所述输入接口(IN)还被配置为接收额外数据,并且所述分析器(AZ)还被配置为分析所述额外数据以获得所述结果。
3.根据权利要求2所述的系统,其中,所述额外数据包括与所述至少一个数据表相关联的外部数据,其中,所述外部数据在所述数据集外部,并且所述额外数据表示数据消费者(DC)的背景知识;并且
4.根据权利要求3所述的系统,其中,所述分析器(AZ)还被配置为分析至少一个数据消费者(DC)的简档,以获得描述针对所述至少一个数据表的所述至少
...【技术特征摘要】
1.一种用于对多关系数据集进行匿名化的计算系统(sys),包括:
2.根据权利要求1所述的系统,其中,所述输入接口(in)还被配置为接收额外数据,并且所述分析器(az)还被配置为分析所述额外数据以获得所述结果。
3.根据权利要求2所述的系统,其中,所述额外数据包括与所述至少一个数据表相关联的外部数据,其中,所述外部数据在所述数据集外部,并且所述额外数据表示数据消费者(dc)的背景知识;并且
4.根据权利要求3所述的系统,其中,所述分析器(az)还被配置为分析至少一个数据消费者(dc)的简档,以获得描述针对所述至少一个数据表的所述至少一个数据消费者(dc)的所述背景知识的信息。
5.根据权利要求2-3中的任一项所述的系统,包括用户接口(ui),所述用户接口被配置为允许用户改变所述额外数据的类型和/或量,所述分析器(az)响应于这样的变化而提供不同的结果,因此使得所述系统提供所述至少一个匿名化数据表(tb)的不同版本。
6.根据权利要求2-5中的任一项所述的系统,其中,所述额外信息包括来自所述数据集(ds)的一个或多个其他数据表,所述分析器(az)还用于分析所述一个或多个其他数据表以获得所述结果。
7.根据前述权利要求中的任一项所述的系统,所述匿名器(ay)还被配置为基于预定义的一组数据字段水平匿名化规则来将...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。