基于数据隐私保护的机器学习模型特征筛选方法及装置制造方法及图纸

技术编号：23934135 阅读：45 留言：0更新日期：2020-04-25 02:31

本说明书实施例提供用于基于数据隐私保护的机器学习模型特征筛选的方法。机器学习模型具有模型特征集，并且机器学习模型的特征数据被垂直切分地分布在第一数据拥有方和至少一个第二数据拥有方处，每个数据拥有方具有与模型特征集的模型特征子集对应的特征数据。第一数据拥有方具有待筛选模型特征的特征数据，第二数据拥有方不具有待筛选模型特征的特征数据。第一数据拥有方和至少一个第二数据拥有方协同来使用各自的特征数据进行多方安全计算，以训练出待筛选模型特征的预测模型。在第一数据拥有方处，基于待筛选模型特征的预测差值确定待筛选模型特征的方差膨胀因子，以进行模型特征筛选处理。

Feature selection method and device of machine learning model based on data privacy protection

全部详细技术资料下载

【技术实现步骤摘要】
基于数据隐私保护的机器学习模型特征筛选方法及装置
本说明书的实施例通常涉及计算机领域，更具体地，涉及基于数据隐私保护的机器学习模型特征筛选方法及装置。
技术介绍
在公司或企业进行业务运营时，通常会使用机器学习模型来进行模型预测，以例如确定业务类别、业务运营风险或者进行业务运营决策。机器学习模型例如可以包括业务风险识别模型、业务分类模型、业务决策模型等等。机器学习模型通常会使用大量的模型特征作为模型输入特征，例如，机器学习模型可能会使用多达上万个模型特征。模型特征的数量越多，机器学习模型的运算量越大，从而需要花费更多的计算资源和时间成本。机器学习模型的模型特征通常根据经验选择，例如，由有经验的行业人员来人工选择。然而，在根据这种方式确定出的模型特征中，可能会存在对机器学习模型的模型效果影响不大的模型特征，这些模型特征的引入会增加机器学习模型的计算量，但不会提升机器学习模型的预测精度，由此，如何进行机器学习模型的模型特征筛选，成为亟待解决的问题。
技术实现思路
鉴于上述问题，本说明书的实施例提供了一种基于数据隐私保护的机器学习模型特征筛选方法及装置，其能够在保证多个数据拥有方的各自隐私数据安全的情况下实现模型特征筛选。根据本说明书的实施例的一个方面，提供一种用于基于数据隐私保护的机器学习模型特征筛选的方法，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被垂直切分地分布在第一数目个数据拥有方处，每个数据拥有方具有与所述模型特征集的模型特征子集对应的特征数据，所述数据拥有方包括...

【技术保护点】
1.一种用于基于数据隐私保护的机器学习模型特征筛选的方法，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被垂直切分地分布在第一数目个数据拥有方处，每个数据拥有方具有与所述模型特征集的模型特征子集对应的特征数据，所述数据拥有方包括第一数据拥有方和第二数目个第二数据拥有方，第二数目等于第一数目减一，第一数据拥有方具有待筛选模型特征的特征数据，第二数据拥有方不具有所述待筛选模型特征的特征数据，所述方法由第一数据拥有方执行，所述方法包括：/n使用各个数据拥有方的特征数据，利用多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被垂直切分为多个预测子模型，每个数据拥有方具有一个预测子模型；以及/n基于所述待筛选模型特征的预测差值，确定所述待筛选模型特征的方差膨胀因子，以用于模型特征筛选处理。/n

【技术特征摘要】
1.一种用于基于数据隐私保护的机器学习模型特征筛选的方法，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被垂直切分地分布在第一数目个数据拥有方处，每个数据拥有方具有与所述模型特征集的模型特征子集对应的特征数据，所述数据拥有方包括第一数据拥有方和第二数目个第二数据拥有方，第二数目等于第一数目减一，第一数据拥有方具有待筛选模型特征的特征数据，第二数据拥有方不具有所述待筛选模型特征的特征数据，所述方法由第一数据拥有方执行，所述方法包括：
使用各个数据拥有方的特征数据，利用多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被垂直切分为多个预测子模型，每个数据拥有方具有一个预测子模型；以及
基于所述待筛选模型特征的预测差值，确定所述待筛选模型特征的方差膨胀因子，以用于模型特征筛选处理。

2.如权利要求1所述的方法，还包括：
根据所述待筛选模型特征的方差膨胀因子，对所述待筛选模型特征进行模型特征筛选处理。

3.如权利要求2所述的方法，其中，根据所确定出的待筛选模型特征的方差膨胀因子，对所述待筛选模型特征进行模型特征筛选处理包括：
在所述待筛选模型特征的方差膨胀因子大于预定阈值时，从所述模型特征集中筛除所述待筛选模型特征。

4.如权利要求1所述的方法，还包括：
将所述待筛选模型特征的方差膨胀因子提供给模型特征筛选方来进行模型特征筛选。

5.如权利要求1所述的方法，其中，所述待筛选模型特征的预测差值是所述预测模型的训练过程中的最后一次循环过程中得到的预测差值。

6.如权利要求1所述的方法，还包括：
根据各个数据拥有方的第一特征数据以及预测子模型进行多方安全计算，以得到所述待筛选模型特征的预测值以及预测差值，所述第一特征数据是从各个数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。

7.如权利要求1或6所述的方法，其中，所述多方安全计算包括秘密共享、混淆电路和同态加密中的一种。

8.如权利要求7所述的方法，其中，所述秘密共享包括秘密共享矩阵乘法和秘密共享矩阵加法。

9.如权利要求8所述的方法，其中，所述多方安全计算所采用的秘密共享的类型是根据第二数据拥有方的数目确定的。

10.如权利要求8所述的方法，其中，所述秘密共享矩阵乘法包括有可信初始化方秘密共享矩阵乘法或者无可信初始化方秘密共享矩阵乘法。

11.如权利要求1到10中任一所述的方法，其中，所述机器学习模型的特征数据包括基于图像数据、语音数据或文本数据确定的特征数据，或者所述机器学习模型的特征数据包括用户特征数据。

12.一种用于基于数据隐私保护的机器学习模型特征筛选的方法，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被垂直切分地分布在第一数目个数据拥有方处，每个数据拥有方具有与所述模型特征集的模型特征子集对应的特征数据，所述数据拥有方包括第一数据拥有方和第二数目个第二数据拥有方，第二数目等于第一数目减一，第一数据拥有方具有待筛选模型特征的特征数据，第二数据拥有方不具有所述待筛选模型特征的特征数据，所述方法由第二数据拥有方执行，所述方法包括：
使用各个数据拥有方的特征数据，利用多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被垂直切分为多个预测子模型，每个数据拥有方具有一个预测子模型，
其中，所述预测模型的预测值被使用来确定所述待筛选模型特征的预测差值和方差膨胀因子，所述方差膨胀因子用于对所述待筛选模型特征进行模型特征筛选处理。

13.如权利要求12所述的方法，还包括：
根据各个数据拥有方的第一特征数据以及预测子模型进行多方安全计算，以得到所述待筛选模型特征的预测值，所述第一特征数据是从各个数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。

14.如权利要求12或13所述的方法，其中，所述多方安全计算包括秘密共享、混...

【专利技术属性】
技术研发人员：陈超超，王力，周俊，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人