在数据隐私保护下执行机器学习的方法和系统技术方案

技术编号：23765263 阅读：23 留言：0更新日期：2020-04-11 19:29

提供了一种在数据隐私保护下执行机器学习的方法和系统，所述方法包括：获取包括多条目标数据记录的目标数据集；获取关于源数据集的多个迁移项，其中，所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集；分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型，以获得多个第一目标机器学习模型；利用所述多个第一目标机器学习模型获得第二目标机器学习模型，其中，在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中，在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。

Method and system of machine learning under data privacy protection

全部详细技术资料下载

【技术实现步骤摘要】
在数据隐私保护下执行机器学习的方法和系统
本专利技术总体说来涉及人工智能领域中的数据安全技术，更具体地说，涉及一种在数据隐私保护下执行机器学习的方法和系统、以及利用具有数据隐私保护的机器学习模型进行预测的方法和系统。
技术介绍
众所周知，机器学习往往需要大量的数据以通过计算的手段从大量数据中挖掘出有价值的潜在信息。尽管随着信息技术的发展产生了海量的数据，然而，当前环境下，人们对数据的隐私保护越来越重视，这使得即使理论上可用于机器学习的数据很多，也因为不同数据源出于其对自身所拥有的数据的隐私保护上的考虑，而不愿或不能将其数据直接共享给其他有需要的数据使用者，从而使得实际上可用于机器学习的数据仍然可能不足，由此导致无法有效地利用机器学习基于更多的相关数据挖掘出能够创造更多价值的信息。此外，即使已经从其他数据源获取到含有隐私信息的数据或者机构本身拥有含有隐私信息的数据，基于这些数据训练出的机器学习模型仍然可能泄露数据的隐私信息。另外，虽然目前存在一些对数据进行隐私保护的方式，但是实际操作中却往往难以同时兼顾数据隐私保护和受隐私保护数据的后续可用性这两者，从而导致机器学习效果不佳。鉴于此，需要既保证数据中的隐私信息不被泄露，同时在能够保证受隐私保护的数据的后续可用性的情况下有效利用不同数据源的数据进行机器学习的技术。
技术实现思路
根据本公开示例性实施例，提供了一种在数据隐私保护下执行机器学习的方法，所述方法可包括：获取包括多条目标数据记录的目标数据集；获取关于源数据集的多个迁移项，其中，...

【技术保护点】
1.一种在数据隐私保护下执行机器学习的方法，包括：/n获取包括多条目标数据记录的目标数据集；/n获取关于源数据集的多个迁移项，其中，所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集；/n分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型，以获得多个第一目标机器学习模型；/n利用所述多个第一目标机器学习模型获得第二目标机器学习模型，/n其中，在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中，在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。/n

【技术特征摘要】
1.一种在数据隐私保护下执行机器学习的方法，包括：
获取包括多条目标数据记录的目标数据集；
获取关于源数据集的多个迁移项，其中，所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集；
分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型，以获得多个第一目标机器学习模型；
利用所述多个第一目标机器学习模型获得第二目标机器学习模型，
其中，在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中，在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。

2.如权利要求1所述的方法，其中，所述对应的一部分源数据集是通过将源数据集按照数据属性字段划分而获得的源数据子集。

3.如权利要求1所述的方法，其中，获取关于源数据集的多个迁移项的步骤包括：从外部接收关于源数据集的多个迁移项。

4.如权利要求2所述的方法，其中，获取关于源数据集的多个迁移项的步骤包括：
获取包括多条源数据记录的源数据集，其中，源数据记录和目标数据记录包括相同的数据属性字段；
将源数据集按照数据属性字段划分为多个源数据子集，其中，每个源数据子集中的数据记录包括至少一个数据属性字段；
在源数据隐私保护方式下，基于每个源数据子集，针对第一预测目标训练与每个源数据子集对应的源机器学习模型，并将训练出的每个源机器学习模型的参数作为与每个源数据子集相关的迁移项。

5.如权利要求4所述的方法，其中，获得与每个迁移项对应的第一目标机器学习模型的步骤包括：
在不使用目标数据集的情况下，直接将每个迁移项作为与其对应的第一目标机器学习模型的参数。

6.一种利用具有数据隐私保护的机器学习模型进行预测的方法，包括：
获取如权利要求1至5中的任一权利要求所述的多个第一目标机器学习模型和第二目标机器学习模型；
获取预测数据记录；
将预测数据记录划分为多个子预测数据；
针对每条预测数据记录之中的每个子预测数据，利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果；以及
将由多个第一目标机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二目标机器学...

【专利技术属性】
技术研发人员：郭夏玮，涂威威，姚权铭，
申请(专利权)人：第四范式北京技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人