机器学习模型的训练样本的筛选方法及其系统技术方案

技术编号：23892589 阅读：23 留言：0更新日期：2020-04-22 07:05

本说明书实施例公开了一种机器学习模型的训练样本的筛选方法及其系统，包括：标签提供方对样本的标签值进行同态加密，以生成不同样本对应的标签值密文。特征提供方根据样本对应的数值区间特征值，将标签值密文与数值区间特征值进行对应，以生成数值区间特征值对应的特征密文。标签提供方对特征密文进行同态解密，以生成标签值与数值区间特征值的对应关系。特征提供方根据对应关系，对数值区间特征变量进行价值评估。特征提供方根据评估结果，对样本进行筛选。由此，特征提供方无法获知每个样本对应的标签值，标签提供方无法获知每个样本对应的数值区间特征值，从而防止泄露用户的隐私数据，保护了用户的数据信息安全。

全部详细技术资料下载

【技术实现步骤摘要】
机器学习模型的训练样本的筛选方法及其系统
本说明书涉及数据处理
，尤其涉及一种机器学习模型的训练样本的筛选方法及其系统。
技术介绍
在多方联合计算平台中，需要参与联合的各个用户提供隐私数据，实现联合计算，建立机器学习模型。在建立机器学习模型时，参与联合的各个用户都会提供隐私数据，使得训练数据的数据量过大，因此需要对用户提供的隐私数据进行筛选。首先对用户提供的隐私数据进行分类，一种作为特征变量，另一种作为标签值，通过对不同的特征变量进行价值评估，从而筛选出与标签值关联度较大的特征变量，与标签值一起建立机器学习模型。随着通用数据保护条例(generaldataprotectionregulation，GDPR)的生效，用户的隐私数据所受到的管制越来越严格。尤其是在国际场景，隐私数据不泄露、用户数据可用不可见等也成为越来越多数据使用的需求。因此，如何在隐私数据不泄露的情况下，实现对隐私数据的处理成为一个难题，亟需一种既能对用户的隐私数据进行筛选，又能防止用户的隐私数据泄露的技术方案。
技术实现思路
本说明书实施例旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本说明书实施例的第一个目的在于提出一种机器学习模型的训练样本的筛选方法，特征提供方无法获知每个样本对应的标签值，标签提供方无法获知每个样本对应的数值区间特征值，从而防止泄露用户的隐私数据，保护了用户的数据信息安全。本说明书实施例的第二个目的在于提出一种机器学习模型的训练样本的筛选方法。>本说明书实施例的第三个目的在于提出一种机器学习模型的训练样本的筛选系统。本说明书实施例的第四个目的在于提出一种机器学习模型的训练样本的筛选装置。本说明书实施例的第五个目的在于提出一种计算机设备。本说明书实施例的第六个目的在于提出一种非临时性计算机可读存储介质。为达上述目的，本说明书实施例第一方面实施例提出了一种机器学习模型的训练样本的筛选方法，包括：标签提供方对样本的标签值进行同态加密，以生成不同所述样本对应的标签值密文，并将所述标签值密文发送给特征提供方；所述特征提供方根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文，并将所述特征密文发送给所述标签提供方；所述标签提供方对所述特征密文进行同态解密，以生成所述标签值与所述数值区间特征值的对应关系，并将所述对应关系发送给所述特征提供方；所述特征提供方根据所述对应关系，对数值区间特征变量进行价值评估；以及所述特征提供方根据评估结果，对所述样本进行筛选。和现有技术相比，本说明书实施例进行机器学习模型的训练样本的筛选时，通过同态加密技术，使得特征提供方无法获知每个样本对应的标签值，标签提供方无法获知每个样本对应的数值区间特征值，依然能够对数值区间特征变量进行价值评估，进而根据评估结果，对样本进行筛选，从而防止泄露用户的隐私数据，保护了用户的数据信息安全。另外，本说明书实施例的机器学习模型的训练样本的筛选方法，还具有如下附加的技术特征：可选地，所述样本包括正例样本和反例样本，所述正例样本将1作为所述标签值，所述反例样本将0作为所述标签值。可选地，所述特征提供方根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文，包括：所述特征提供方将所述数值区间特征值相同的样本，所对应的标签值密文进行相加，以生成所述数值区间特征值对应的特征密文。可选地，所述标签提供方对所述特征密文进行同态解密，以生成所述标签值与所述数值区间特征值的对应关系，包括：所述标签提供方对所述特征密文进行同态解密，以生成所述数值区间特征值对应的所述正例样本的数量。可选地，所述特征提供方根据所述对应关系，对数值区间特征变量进行价值评估，包括：所述特征提供方从所述标签提供方获取所述正例样本的总数量；所述特征提供方根据所述数值区间特征值对应的所述正例样本的数量，以及所述正例样本的总数量，对所述数值区间特征变量进行价值评估。可选地，所述特征提供方将所述数值区间特征值相同的样本，所对应的标签值密文进行相加，以生成所述数值区间特征值对应的特征密文，包括：所述特征提供方对所述数值区间特征值进行排序；所述特征提供方根据所述数值区间特征值的顺序，将对应于相同所述数值区间特征值的所述标签值密文进行相加，以生成所述数值区间特征值对应的特征密文。可选地，在所述特征提供方根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文之前，还包括：所述特征提供方根据所述样本的数值型特征值，确定所述样本的数值型特征区间；所述特征提供方根据所述样本的数值型特征值在所述样本的数值型特征区间上的分布情况，对所述样本的数值型特征区间进行切分，以生成所述数值区间特征值对应的数值范围。可选地，所述样本的类型包括自然人、法人、其他组织中的任意一种。本说明书实施例第二方面实施例提出了一种机器学习模型的训练样本的筛选方法，所述方法在特征提供方实现，包括：从标签提供方接收标签值密文；其中，所述标签值密文由样本的标签值经过同态加密后生成；根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文，并将所述特征密文发送给所述标签提供方；从所述标签提供方接收所述标签值与所述数值区间特征值的对应关系；其中，所述对应关系由所述特征密文经过同态解密后生成；根据所述对应关系，对数值区间特征变量进行价值评估；以及根据评估结果，对所述样本进行筛选。另外，本说明书实施例的机器学习模型的训练样本的筛选方法，还具有如下附加的技术特征：可选地，所述样本包括正例样本和反例样本，所述正例样本将1作为所述标签值，所述反例样本将0作为所述标签值。可选地，所述根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文，包括：将所述数值区间特征值相同的样本，所对应的标签值密文进行相加，以生成所述数值区间特征值对应的特征密文。可选地，所述标签值与所述数值区间特征值的对应关系包括所述数值区间特征值对应的所述正例样本的数量。可选地，所述根据所述对应关系，对数值区间特征变量进行价值评估，包括：从所述标签提供方获取所述正例样本的总数量；根据所述数值区间特征值对应的所述正例样本的数量，以及所述正例样本的总数量，对所述数值区间特征变量进行价值评估。可选地，所述将所述数值区间特征值相同的样本，所对应的标签值密文进行相加，以生成所述数值区间特征值对应的特征密文，包括：对所述数值区间特征值进行排序；根据所述数值区间特征值的顺序，将对应于相同所述数值区间特征值的所述标签值密文进行相加，以生成所述数值区间特征值对应的特征密文。可选地，在所述根据所述样本对应的数值区间特征值，将本文档来自技高网...

【技术保护点】
1.一种机器学习模型的训练样本的筛选方法，包括：/n标签提供方对样本的标签值进行同态加密，以生成不同所述样本对应的标签值密文，并将所述标签值密文发送给特征提供方；/n所述特征提供方根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文，并将所述特征密文发送给所述标签提供方；/n所述标签提供方对所述特征密文进行同态解密，以生成所述标签值与所述数值区间特征值的对应关系，并将所述对应关系发送给所述特征提供方；/n所述特征提供方根据所述对应关系，对数值区间特征变量进行价值评估；以及/n所述特征提供方根据评估结果，对所述样本进行筛选。/n

【技术特征摘要】
1.一种机器学习模型的训练样本的筛选方法，包括：
标签提供方对样本的标签值进行同态加密，以生成不同所述样本对应的标签值密文，并将所述标签值密文发送给特征提供方；
所述特征提供方根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文，并将所述特征密文发送给所述标签提供方；
所述标签提供方对所述特征密文进行同态解密，以生成所述标签值与所述数值区间特征值的对应关系，并将所述对应关系发送给所述特征提供方；
所述特征提供方根据所述对应关系，对数值区间特征变量进行价值评估；以及
所述特征提供方根据评估结果，对所述样本进行筛选。

2.如权利要求1所述的方法，其中，所述样本包括正例样本和反例样本，所述正例样本将1作为所述标签值，所述反例样本将0作为所述标签值。

3.如权利要求2所述的方法，其中，所述特征提供方根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文，包括：
所述特征提供方将所述数值区间特征值相同的样本，所对应的标签值密文进行相加，以生成所述数值区间特征值对应的特征密文。

4.如权利要求3所述的方法，其中，所述标签提供方对所述特征密文进行同态解密，以生成所述标签值与所述数值区间特征值的对应关系，包括：
所述标签提供方对所述特征密文进行同态解密，以生成所述数值区间特征值对应的所述正例样本的数量。

5.如权利要求4所述的方法，其中，所述特征提供方根据所述对应关系，对数值区间特征变量进行价值评估，包括：
所述特征提供方从所述标签提供方获取所述正例样本的总数量；
所述特征提供方根据所述数值区间特征值对应的所述正例样本的数量，以及所述正例样本的总数量，对所述数值区间特征变量进行价值评估。

6.如权利要求3所述的方法，其中，所述特征提供方将所述数值区间特征值相同的样本，所对应的标签值密文进行相加，以生成所述数值区间特征值对应的特征密文，包括：
所述特征提供方对所述数值区间特征值进行排序；
所述特征提供方根据所述数值区间特征值的顺序，将对应于相同所述数值区间特征值的所述标签值密文进行相加，以生成所述数值区间特征值对应的特征密文。

7.如权利要求1-6中任一项所述的方法，其中，在所述特征提供方根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文之前，还包括：
所述特征提供方根据所述样本的数值型特征值，确定所述样本的数值型特征区间；
所述特征提供方根据所述样本的数值型特征值在所述样本的数值型特征区间上的分布情况，对所述样本的数值型特征区间进行切分，以生成所述数值区间特征值对应的数值范围。

8.如权利要求1-6中任一项所述的方法，其中，所述样本的类型包括自然人、法人、其他组织中的任意一种。

9.一种机器学习模型的训练样本的筛选方法，所述方法在特征提供方实现，包括：
从标签提供方接收标签值密文；其中，所述标签值密文由样本的标签值经过同态加密后生成；
根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文，并将所述特征密文发送给所述标签提供方；
从所述标签提供方接收所述标签值与所述数值区间特征值的对应关系；其中，所述对应关系由所述特征密文经过同态解密后生成；
根据所述对应关系，对数值区间特征变量进行价值评估；以及
根据评估结果，对所述样本进行筛选。

10.如权利要求9所述的方法，其中，所述样本包括正例样本和反例样本，所述正例样本将1作为所述标签值，所述反例样本将0作为所述标签值。

11.如权利要求10所述的方法，其中，所述根据所述样本对应的数值区间特征值，将所述标签值密文与所述数值区间特征值进行对应，以生成所述数值区间特征值对应的特征密文，包括：
将所述数值区间特征值相同的样本，所对应的标签值密文进行相加，以生成所述数值区间特征值对应的特征密文。

12.如权利要求11所述的方法，其中，所述标签值与所述数值区间特征值的对应关系包括所述数值区间特征值对应的所述正例样本的数量。

13.如权利要求12所述的方法，其中，所述根据所述对应关系，对数值区间特征变量进行价值评估，包括：
从所述标签提供方获取所述正例样本的总数量；
根据所述数值区间特征值对应的所述正例样本的数量，以及所述正例样本的总数量，对所述数值区间特征变量进行价值评估。

【专利技术属性】
技术研发人员：周亚顺，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人