一种数据有效性的验证方法和装置制造方法及图纸

技术编号：20917768 阅读：22 留言：0更新日期：2019-04-20 09:57

本说明书实施例提供一种数据有效性的验证方法和装置，其中，方法可以包括：根据训练样本中的入模变量和标签，训练机器学习模型；所述训练样本还包括未入模变量；将测试样本中的入模变量输入机器学习模型得到预测值；测试样本还包括标签；根据所述测试样本的标签和预测值，得到测试样本对应的残差；基于训练样本中的未入模变量，根据残差计算未入模变量对应的信息量IV；将所述残差发送至第二数据方，以使得第二数据方对拥有的第二数据根据残差计算对应的信息量；接收第二数据方返回的信息量，以通过比较信息量确定第二数据的数据有效性。

A Method and Device for Validating Data Validity

The embodiment of this specification provides a method and device for verifying data validity, in which the method may include: training machine learning model according to input variables and labels in training samples; training samples also include non-input variables; input input input variables in test samples into machine learning model to obtain predicted values; test samples also include labels; and according to the test samples, training machine learning model can be trained. The label and predicted value of the sample are used to obtain the corresponding residual of the test sample; the information IV of the unmodeled variable is calculated according to the residual value based on the unmodeled variable in the training sample; the residual is sent to the second data side so that the second data side calculates the corresponding information amount according to the residual value for the second data it has; and the information quantity returned by the second data side is received to pass the comparison. The data validity of the second data is determined by comparing the amount of information.

全部详细技术资料下载

【技术实现步骤摘要】
一种数据有效性的验证方法和装置
本公开涉及大数据
，特别涉及一种数据有效性的验证方法和装置。
技术介绍
随着互联网技术的飞速发展，整个社会被强行推入“大数据”时代。不管人们是否愿意，我们的个人数据正在不经意间被动地被企业、个人搜集并使用。个人数据的网络化和透明化已经成为不可阻挡的大趋势。与此同时，用户数据亦是危险的“潘多拉之盒”，数据一旦泄漏，用户的隐私将被侵犯。近年来，已经发生了多起用户隐私泄露事件，公民的个人的隐私数据保护遇到了严峻的挑战。大数据带来的整体性变革，使得个体用户很难对抗个人隐私被全面暴露的风险。面对频发的隐私泄露事件，隐私保护问题需要得到有效的解决。在实际业务当中，我们可能遇到这样的场景：需要借助第三方渠道的变量数据来提升现有模型的效果，仅当这些数据对我们建模会有帮助的时候，才购买相应的第三方数据。因此，我们需要在不获取第三方数据的情况下预先评判其有效性，并且在这个过程中不能泄露我方用户的隐私数据。
技术实现思路
有鉴于此，本说明书一个或多个实施例提供一种数据有效性的验证方法和装置，以在确定外部数据有效性的同时保护内部数据隐私。具体地，本说明书一个或多个实施例是通过如下技术方案实现的：第一方面，提供一种数据有效性的验证方法，所述方法应用于验证第二数据方拥有的第二数据是否有效；所述方法由第一数据方执行，所述第一数据方拥有的第一数据包括：机器学习模型的训练集和测试集；所述训练集包括多个训练样本，所述测试集包括多个测试样本；所述方法包括：根据所述训练样本中的入模变量和标签，训练所述机器学习模型；所述训练样本还包括未参与机器学习模型训练的未入模...

【技术保护点】
1.一种数据有效性的验证方法，所述方法应用于验证第二数据方拥有的第二数据是否有效；所述方法由第一数据方执行，所述第一数据方拥有的第一数据包括：机器学习模型的训练集和测试集；所述训练集包括多个训练样本，所述测试集包括多个测试样本；所述方法包括：根据所述训练样本中的入模变量和标签，训练所述机器学习模型；所述训练样本还包括未参与机器学习模型训练的未入模变量；将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值；所述测试样本还包括标签，所述标签表示测试样本的入模变量输入机器学习模型的预期预测值；根据所述测试样本的标签和所述预测值，得到所述测试样本对应的残差；基于所述训练样本中的未入模变量，根据所述残差计算所述未入模变量对应的信息量IV；将所述残差发送至第二数据方，以使得第二数据方对拥有的第二数据根据所述残差计算对应的信息量；接收所述第二数据方返回的信息量，以通过比较未入模变量对应的信息量与第二数据的信息量，来确定第二数据的数据有效性。

【技术特征摘要】
1.一种数据有效性的验证方法，所述方法应用于验证第二数据方拥有的第二数据是否有效；所述方法由第一数据方执行，所述第一数据方拥有的第一数据包括：机器学习模型的训练集和测试集；所述训练集包括多个训练样本，所述测试集包括多个测试样本；所述方法包括：根据所述训练样本中的入模变量和标签，训练所述机器学习模型；所述训练样本还包括未参与机器学习模型训练的未入模变量；将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值；所述测试样本还包括标签，所述标签表示测试样本的入模变量输入机器学习模型的预期预测值；根据所述测试样本的标签和所述预测值，得到所述测试样本对应的残差；基于所述训练样本中的未入模变量，根据所述残差计算所述未入模变量对应的信息量IV；将所述残差发送至第二数据方，以使得第二数据方对拥有的第二数据根据所述残差计算对应的信息量；接收所述第二数据方返回的信息量，以通过比较未入模变量对应的信息量与第二数据的信息量，来确定第二数据的数据有效性。2.根据权利要求1所述的方法，所述未入模变量的数量是至少一个；所述根据残差计算所述未入模变量的信息量，包括：对于其中一个所述未入模变量，确定基于所述未入模变量的多个分箱；根据所述多个分箱，将所述测试集中的测试样本划分到对应的各个分箱中，所述测试样本同样包括所述入模变量和未入模变量；对于每个分箱，根据划分到所述分箱中的测试样本对应的残差，得到所述分箱对应的信息量；将各个分箱的信息量加和，得到所述未入模变量对应的信息量。3.根据权利要求2所述的方法，所述根据划分到所述分箱中的测试样本对应的残差，得到所述分箱对应的信息量，包括：WOEi＝ln{(∑|Yres,i|/∑|Yres,t|)/(∑|1-Yres,i|/∑|1-Yres,t|)}IVi＝(∑|Yres,i|/∑|Yres,t|-∑|1-Yres,i|/∑|1-Yres,t|)*WOEi；其中，WOEi是所述分箱对应的证据权重，∑|Yres,i|是该分箱中的各个残差的绝对值的和；∑|Yres,t|是所有分箱的所有残差的绝对值的和；IVi是所述分箱对应的信息量。4.根据权利要求1所述的方法，所述将所述残差发送至第二数据方，包括：将所述训练样本的样本标识发送给所述第二数据方，以使得所述第二数据方查找所述样本标识对应的第二数据用于计算信息量。5.一种数据有效性的验证方法，所述方法由第二数据方执行，包括：接收第一数据方发送的残差，所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到；所述第一数据方拥有的第一数据包括：训练集和测试集，所述训练集包括多个训练样本，所述测试集包括多个测试样本；所述机器学习模型是根据训练样本中的入模变量和标签训练得到；所述训练样本中还包括未入模变量；接收所述第一数据方发送的训练样本的样本标识，并根据所述样本标识进行样本匹配获得用于计算信息量的第二数据；根据所述残差计算所述第二数据对应的信息量；将所述第二数据对应的信息量返回给第一数据方，以使得第一数据方通过比较所述训练样本中的未入模变量对应的信息量与第二数据的信息量来确定第二数据的数据有效性。6.根据权利要求5所述的方法，所述方法还包括：获取所述第二数据的如下至少一项参数：样本匹配率和变量缺失率；将所述参数返回给第一数据方，以使得第一数据方结合所述参数和所述信息量IV确定第二数据的有效性。7.一种数据有效性的验证装置，所述装置应用于验证第二数据方拥有...

【专利技术属性】
技术研发人员：方文静，王力，周俊，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人