对数据集中的敏感数据字段进行归类制造技术

技术编号:31502913 阅读:34 留言:0更新日期:2021-12-22 23:27
一些实施例涉及一种用于对数据集中的敏感数据字段进行归类(例如,根据ICD分类得到的疾病分类)的归类系统。客户端设备获得针对数据集的一个或多个记录的类别。所述客户端设备确定针对所述归类的归类数据。所述归类数据包括对敏感数据字段的可能值的同态加密以及对与相应的可能值相关联的类别的编码,由此保持归类秘密。数据提供者设备存储数据集并且确定指示针对记录的所述敏感数据字段的值与相应的可能值之间的差异的同态加密。归类设备确定这些加密中的哪些加密指示匹配并且提供和与所述客户端设备相匹配的可能值相关联的类别编码。所述客户端设备将编码类别与记录相关联。联。联。

【技术实现步骤摘要】
【国外来华专利技术】对数据集中的敏感数据字段进行归类


[0001]本专利技术涉及归类系统、客户端设备、数据提供者设备和归类设备。本专利技术还涉及到对应于相应设备的方法以及计算机可读存储介质。

技术介绍

[0002]在医学研究中,研究人员通常使用多个数据集,例如用于机器学习算法和模型的训练和验证,或者用于医学假设检验。有权访问更多更好质量的数据通常会得到更高质量的结果。因此,研究人员常常请求来自其他机构的数据以用于分析。然而,获得这样的访问权限可能是具有挑战性的,因为所请求的数据通常是隐私敏感的,例如包括根据国际疾病分类ICD得到的详细疾病分类或如邮政编码的位置信息。这样的隐私敏感信息的交换常常被各种隐私法规(例如,美国的健康保险可携性与责任法案HIPPA以及欧盟的通用数据保护法规GDPR)所限制。
[0003]鉴于这样的敏感数据,数据提供者往往无法直接分享它们。能够采取各种措施以仍然允许对数据的某种使用,例如移除产生一些患者异常值的敏感数据点或者插入噪声。特别地,一种数据提供者降低敏感数据字段的隐私敏感性的有用技术是在将数据集提供给研究者之前对敏感数据字段本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对数据集(111)中的敏感数据字段进行归类的归类系统(100),所述数据集包括一个或多个记录,所述数据集的每个记录包括所述敏感数据字段的值,所述系统包括客户端设备、数据提供者设备和归类设备,其中:所述客户端设备(101)用于获得所述归类,所述设备包括:存储器(141),其被配置为存储针对所述数据集的记录的所述敏感数据字段的类别(112);处理器(131),其被配置为:确定归类数据(113),所述归类数据包括针对所述敏感数据字段的一个或多个可能值的以下各项:对所述可能值的同态加密,以及对所述可能值的类别进行编码的数据;将所述归类数据(113)提供给所述数据提供者设备;从所述归类设备获得对针对所述数据集的记录的所述敏感数据字段的类别进行编码的数据(114),并且将针对所述记录的所述类别存储在所述存储器中;所述数据提供者设备(102)用于提供要被归类的数据,所述设备包括:存储器(142),其被配置为存储所述数据集(111);处理器(132),其被配置为:从所述客户端设备获得所述归类数据(113),包括对所述敏感数据字段的可能值的同态加密以及对所述可能值的类别进行编码的数据;针对所述数据集的记录,基于对所述可能值的所述同态加密来确定指示所述可能值与针对所述记录的所述敏感数据字段的值之间的差异的同态加密;向所述归类设备提供对所述可能值的所述类别进行编码的数据以及指示所述差异的所述同态加密(115);所述归类设备(103)用于启用所述归类,所述设备包括:存储器(143),其被配置为存储针对所述同态加密的解密密钥(116);处理器(133),其被配置为:从所述数据提供者设备获得对所述敏感数据字段的可能值的类别进行编码的数据以及指示所述可能值与针对所述数据集的记录的所述敏感数据字段的值之间的差异的同态加密(115);确定针对所述记录的所述敏感数据字段的值是否与使用所述解密密钥从所述同态加密得到的可能值相匹配,并且如果是的话,则将所述类别与所述记录相关联;向所述客户端设备提供对与所述记录相关联的所述类别进行编码的数据(114)。2.一种用于获得数据集(111)中的敏感数据字段的归类的客户端设备(101),所述数据集包括一个或多个记录,所述数据集的每个记录包括所述敏感数据字段的值,所述客户端设备包括:通信接口,其被配置用于与数据提供者设备(102)和归类设备(103)进行数字通信;存储器(141),其被配置为存储针对所述数据集的记录的所述敏感数据字段的类别(112);处理器(131),其被配置为:确定归类数据(113),所述归类数据包括针对所述敏感数据字段的一个或多个可能值的以下各项:对所述可能值的同态加密,以及对所述可能值的类别进行编码的数据;
将所述归类数据(113)提供给所述数据提供者设备;从所述归类设备获得对针对所述数据集的记录的所述敏感数据字段的类别进行编码的数据(114),并且将针对所述记录的所述类别存储在所述存储器中。3.根据权利要求2所述的客户端设备(101),其中,所述数据集包括电子医学记录,并且/或者所述敏感数据字段包括疾病分类。4.根据权利要求2或3所述的客户端设备(101),其中,确定所述归类数据包括对所述敏感数据字段的至少一个可能值进行多次加密。5.根据权利要求2至4中的任一项所述的客户端设备(101),还被配置为:获得针对所述记录的一个或多个额外字段的值,并且将针对所述记录的所述值存储在所述存储器中。6.一种用于提供用于对数据集(111)中的敏感数据字段进行归类的数据的数据提供者设备(102),所述数据集包括一个或多个记录,所述数据集的每个记录包括所述敏感数据字段的值,所述数据提供者设备包括:通信接口,其被配置用于与客户端设备(101)和归类设备(103)进行数字通信;存储器(142),其被配置为存储所述数据集(111);处理器(132),其被配置为:从所述客户端设备获得归类数据(113),包括对所述敏感数据字段的可能值的同态加密以及对所述可能值的类别进行编码的数据;针对所述数据集的记录,基于对所述可能值的所述同态加密来确定指示所述可能值与针对所述记录的所述敏感数据字段的值之间的差异的同态加密;向所述归类设备提供对所述可能值的所述类别进行编码的数据以及指示所述差异的所述同态加密(115)。7.根据权利要求6所述的数据提供者设备(102),还被配置为:针对具有相同类别的所述归类数据的第一同态加密和第二同态加密,确定指示通过所述第一同态加密所加密的可能值与通过所述第二同态加密所加密的可能值之间的差异的同态加密,并且将指示差异的所述同态加密提供给所述归类设备。8.根据权利要求6或7所述...

【专利技术属性】
技术研发人员:P
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1