在数据隐私保护下执行机器学习的方法和系统技术方案

技术编号:23765263 阅读:23 留言:0更新日期:2020-04-11 19:29
提供了一种在数据隐私保护下执行机器学习的方法和系统,所述方法包括:获取包括多条目标数据记录的目标数据集;获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;利用所述多个第一目标机器学习模型获得第二目标机器学习模型,其中,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。

Method and system of machine learning under data privacy protection

【技术实现步骤摘要】
在数据隐私保护下执行机器学习的方法和系统
本专利技术总体说来涉及人工智能领域中的数据安全技术,更具体地说,涉及一种在数据隐私保护下执行机器学习的方法和系统、以及利用具有数据隐私保护的机器学习模型进行预测的方法和系统。
技术介绍
众所周知,机器学习往往需要大量的数据以通过计算的手段从大量数据中挖掘出有价值的潜在信息。尽管随着信息技术的发展产生了海量的数据,然而,当前环境下,人们对数据的隐私保护越来越重视,这使得即使理论上可用于机器学习的数据很多,也因为不同数据源出于其对自身所拥有的数据的隐私保护上的考虑,而不愿或不能将其数据直接共享给其他有需要的数据使用者,从而使得实际上可用于机器学习的数据仍然可能不足,由此导致无法有效地利用机器学习基于更多的相关数据挖掘出能够创造更多价值的信息。此外,即使已经从其他数据源获取到含有隐私信息的数据或者机构本身拥有含有隐私信息的数据,基于这些数据训练出的机器学习模型仍然可能泄露数据的隐私信息。另外,虽然目前存在一些对数据进行隐私保护的方式,但是实际操作中却往往难以同时兼顾数据隐私保护和受隐私保护数据的后续可用性这两者,从而导致机器学习效果不佳。鉴于此,需要既保证数据中的隐私信息不被泄露,同时在能够保证受隐私保护的数据的后续可用性的情况下有效利用不同数据源的数据进行机器学习的技术。
技术实现思路
根据本公开示例性实施例,提供了一种在数据隐私保护下执行机器学习的方法,所述方法可包括:获取包括多条目标数据记录的目标数据集;获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;利用所述多个第一目标机器学习模型获得第二目标机器学习模型,其中,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。可选地,所述对应的一部分源数据集可以是通过将源数据集按照数据属性字段划分而获得的源数据子集。可选地,获取关于源数据集的多个迁移项的步骤可包括:从外部接收关于源数据集的多个迁移项。可选地,获取关于源数据集的多个迁移项的步骤可包括:获取包括多条源数据记录的源数据集,其中,源数据记录和目标数据记录包括相同的数据属性字段;将源数据集按照数据属性字段划分为多个源数据子集,其中,每个源数据子集中的数据记录包括至少一个数据属性字段;在源数据隐私保护方式下,基于每个源数据子集,针对第一预测目标训练与每个源数据子集对应的源机器学习模型,并将训练出的每个源机器学习模型的参数作为与每个源数据子集相关的迁移项。可选地,获得与每个迁移项对应的第一目标机器学习模型的步骤可包括:在不使用目标数据集的情况下,直接将每个迁移项作为与其对应的第一目标机器学习模型的参数。可选地,获得与每个迁移项对应的第一目标机器学习模型的步骤可包括:将目标数据集或第一目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第一目标数据子集,其中,第一目标数据集包括目标数据集中所包括的部分目标数据记录,每个第一目标数据子集和与其对应的源数据子集中的数据记录包括相同的数据属性字段;在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁移项,针对第二预测目标训练与该迁移项对应的第一目标机器学习模型。可选地,获得第二目标机器学习模型的步骤可包括:将目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个目标数据子集,其中,每个目标数据子集和与其对应的源数据子集中的数据记录包括相同的数据属性字段;针对每个目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个目标数据子集中的每条数据记录的预测结果;在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。可选地,获得第二目标机器学习模型的步骤可包括:将第二目标机器学习模型的规则设置为:基于通过以下方式获取的与每条预测数据记录对应的多个预测结果来获得第二目标机器学习模型针对所述每条预测数据记录的预测结果,其中,所述方式包括:获取预测数据记录,并将预测数据记录按照数据属性字段以与划分源数据集相同的方式划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果;或者针对每个第一目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个第一目标数据子集中的每条数据记录的预测结果;并且在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型;或者将第二目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第二目标数据子集,其中,第二目标数据集不同于第一目标数据集并至少包括目标数据集中排除第一目标数据集之后的剩余目标数据记录;针对每个第二目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个第二目标数据子集中的每条数据记录的预测结果;在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。可选地,所述源数据隐私保护方式和/或所述目标数据隐私保护方式可以为遵循差分隐私定义的保护方式。可选地,所述源数据隐私保护方式可以为在训练源机器学习模型的过程中添加随机噪声;并且/或者,所述目标数据隐私保护方式可以为在获得第一目标机器学习模型和/或第二目标机器学习模型的过程中添加随机噪声。可选地,在所述源数据隐私保护方式中可将用于训练源机器学习模型的目标函数构造为至少包括损失函数和噪声项;并且/或者,在所述目标数据隐私保护方式中可将用于训练第一目标机器学习模型的目标函数和/或用于训练第二目标机器学习模型的目标函数构造为至少包括损失函数和噪声项。可选地,所述目标数据隐私保护方式的隐私预算可取决于与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和或两者之中较大的隐私预算。可选地,源机器学习模型和第一目标机器学习模型可属于相同类型的机器学习模型;并且/或者,第一预测目标和第二预测目标可以相同或相似。可选地,所述相同类型的机器学习模型可以为逻辑回归模型,其中,训练第一目标机器学习模型的步骤可包括:将用于训练第一目标机器学习模型的目标函数构造为至少包括损失函数和噪声项并反映第一目标机器学习模型的参数与对应于该第一目标机器学习模型的迁移项之间的差值;在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁本文档来自技高网...

【技术保护点】
1.一种在数据隐私保护下执行机器学习的方法,包括:/n获取包括多条目标数据记录的目标数据集;/n获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;/n分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;/n利用所述多个第一目标机器学习模型获得第二目标机器学习模型,/n其中,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。/n

【技术特征摘要】
1.一种在数据隐私保护下执行机器学习的方法,包括:
获取包括多条目标数据记录的目标数据集;
获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;
分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;
利用所述多个第一目标机器学习模型获得第二目标机器学习模型,
其中,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。


2.如权利要求1所述的方法,其中,所述对应的一部分源数据集是通过将源数据集按照数据属性字段划分而获得的源数据子集。


3.如权利要求1所述的方法,其中,获取关于源数据集的多个迁移项的步骤包括:从外部接收关于源数据集的多个迁移项。


4.如权利要求2所述的方法,其中,获取关于源数据集的多个迁移项的步骤包括:
获取包括多条源数据记录的源数据集,其中,源数据记录和目标数据记录包括相同的数据属性字段;
将源数据集按照数据属性字段划分为多个源数据子集,其中,每个源数据子集中的数据记录包括至少一个数据属性字段;
在源数据隐私保护方式下,基于每个源数据子集,针对第一预测目标训练与每个源数据子集对应的源机器学习模型,并将训练出的每个源机器学习模型的参数作为与每个源数据子集相关的迁移项。


5.如权利要求4所述的方法,其中,获得与每个迁移项对应的第一目标机器学习模型的步骤包括:
在不使用目标数据集的情况下,直接将每个迁移项作为与其对应的第一目标机器学习模型的参数。


6.一种利用具有数据隐私保护的机器学习模型进行预测的方法,包括:
获取如权利要求1至5中的任一权利要求所述的多个第一目标机器学习模型和第二目标机器学习模型;
获取预测数据记录;
将预测数据记录划分为多个子预测数据;
针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果;以及
将由多个第一目标机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二目标机器学...

【专利技术属性】
技术研发人员:郭夏玮涂威威姚权铭
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1