用于确定模型训练数据的方法、装置、存储介质及处理器制造方法及图纸

技术编号：34552754 阅读：11 留言：0更新日期：2022-08-17 12:38

本申请实施例提供一种用于确定模型训练数据的方法。方法包括：将未进行脱敏处理的样本数据输入至神经网络模型，以对神经网络模型进行训练得到第一模型；通过多种脱敏方法对样本数据进行脱敏处理，以得到与每种脱敏方法对应的脱敏数据；分别将与每种脱敏方法对应的脱敏数据输入至神经网络模型，以对神经网络模型进行训练得到多个第二模型；确定第一模型和每个第二模型的模型参数；分别将第一模型的模型参数与每个第二模型的模型参数进行对比，以确定第一模型与每个第二模型之间的模型差异值；将模型差异值最小的第二模型确定为目标模型；将目标模型对应的脱敏方法确定为目标脱敏方法，以用目标脱敏方法对样本数据进行脱敏处理，降低模型训练差异。降低模型训练差异。降低模型训练差异。

全部详细技术资料下载

【技术实现步骤摘要】
用于确定模型训练数据的方法、装置、存储介质及处理器

[0001]本申请涉及数据处理
，具体地涉及一种用于确定模型训练数据的方法、装置、存储介质及处理器。

技术介绍

[0002]为了使敏感数据得到可靠的保护，对敏感数据进行脱敏是防止敏感数据泄露的有效手段。在目前的现有技术中，常用的数据脱敏方法包括替代、混洗、数值变换以及加密等。但是，通过不同脱敏方法对敏感数据进行脱敏，并采用脱敏后数据对模型进行训练，会给模型训练的结果带来较大的差异。例如，采用代替的方式对敏感数据进行脱敏可能使得脱敏后的数据存在信息丢失，当采用存在信息丢失等的脱敏后数据对模型进行训练，在一定程度上影响模型训练的训练效果。

技术实现思路

[0003]本申请实施例的目的是提供一种用于确定模型训练数据的方法、装置、存储介质及处理器。
[0004]为了实现上述目的，本申请第一方面提供一种用于确定模型训练数据的方法，包括：
[0005]将未进行脱敏处理的样本数据输入至神经网络模型，以对神经网络模型进行训练，得到第一模型；
[0006]通过多种脱敏方法对样本数据进行脱敏处理，以得到与每种脱敏方法对应的脱敏数据；
[0007]分别将与每种脱敏方法对应的脱敏数据输入至神经网络模型，以对神经网络模型进行训练，得到多个第二模型；
[0008]确定第一模型和每个第二模型的模型参数；
[0009]分别将第一模型的模型参数与每个第二模型的模型参数进行对比，以确定第一模型与每个第二模型之间的模型差异值；
>[0010]将模型差异值最小的第二模型确定为目标模型；
[0011]将目标模型对应的脱敏方法确定为目标脱敏方法，以使用目标脱敏方法对样本数据进行脱敏处理得到针对神经网络模型训练的数据。
[0012]在本申请的实施例中，模型差异值包括模型之间的AUC值，根据公式(1)确定每个第二模型与第一模型的模型差异值Y：
[0013][0014]其中，Y
i
表示为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型与第一模型之间的模型差异值，V
s
为第一模型的AUC值，V
ei
为使用第i种脱敏方法脱敏得到的
样本数据训练出来的第二模型的AUC值，为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型与第一模型之间的过拟合程度值。
[0015]在本申请的实施例中，将未进行脱敏处理的样本数据输入至神经网络模型，以对神经网络模型进行训练，得到第一模型包括：提交机器学习流水线至第一运行环境，在第一运行环境下将未进行脱敏处理的样本数据输入至机器学习流水线的神经网络模型，以对神经网络模型进行训练，得到第一模型；分别将与每种脱敏方法对应的脱敏数据输入至神经网络模型，以对神经网络模型进行训练，得到多个第二模型包括：提交机器学习流水线至第二运行环境，在第二运行环境下分别将与每种脱敏方法对应的脱敏数据输入至机器学习流水线的神经网络模型，以对神经网络模型进行训练，得到多个第二模型。
[0016]在本申请的实施例中，方法还包括：获取目标模型的目标训练参数，目标训练参数包括目标模型所在的第二运行环境的环境运行参数、目标模型的模型参数以及训练目标模型的脱敏数据所采用的脱敏方法；将目标训练参数确定为后续的模型训练的训练参数。
[0017]在本申请的实施例中，第一运行环境为可信环境，可信环境下的数据包括敏感数据，第二运行环境为调试环境，调试环境下的数据均为脱敏数据。
[0018]在本申请的实施例中，在通过脱敏后的样本数据对神经网络模型进行训练的模型参数，与通过未脱敏的样本数据对神经网络模型进行训练的模型参数一致。
[0019]在本申请的实施例中，模型差异值包括模型之间的提升度和/或ks统计量。
[0020]本申请第二方面提供一种处理器，被配置成执行上述的用于确定模型训练数据的方法。
[0021]本申请第三方面提供一种用于确定模型训练数据的装置，装置包括：
[0022]第一训练模块，被配置成将未进行脱敏处理的样本数据输入至神经网络模型，以对神经网络模型进行训练，得到第一模型；
[0023]数据脱敏模块，被配置成通过多种脱敏方法对样本数据进行脱敏处理，以得到与每种脱敏方法对应的脱敏数据；
[0024]第二训练模块，被配置成分别将与每种脱敏方法对应的脱敏数据输入至神经网络模型，以对神经网络模型进行训练，得到多个第二模型；
[0025]模型比对模块，被配置成确定第一模型和每个第二模型的模型参数；分别将第一模型的模型参数与每个第二模型的模型参数进行对比，以确定第一模型与每个第二模型之间的模型差异值；
[0026]模型选取模块，被配置成将模型差异值最小的第二模型确定为目标模型；将目标模型对应的脱敏方法确定为目标脱敏方法，以使用目标脱敏方法对样本数据进行脱敏处理得到针对神经网络模型训练的数据。
[0027]在本申请的实施例中，模型差异值包括模型之间的AUC值，模型比对模块还被配置成根据公式(1)确定每个第二模型与第一模型的模型差异值Y：
[0028][0029]其中，Y
i
表示为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型与第一模型之间的模型差异值，V
s
为第一模型的AUC值，V
ei
为使用第i种脱敏方法脱敏得到的
样本数据训练出来的第二模型的AUC值，为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型与第一模型之间的过拟合程度值。
[0030]在本申请的实施例中，第一训练模块还被配置成：提交机器学习流水线至第一运行环境，在第一运行环境下将未进行脱敏处理的样本数据输入至机器学习流水线的神经网络模型，以对神经网络模型进行训练，得到第一模型；第二训练模块还被配置成：提交机器学习流水线至第二运行环境，在第二运行环境下分别将与每种脱敏方法对应的脱敏数据输入至机器学习流水线的神经网络模型，以对神经网络模型进行训练，得到多个第二模型。
[0031]在本申请的实施例中，模型选取模块还被配置成：获取目标模型的目标训练参数，目标训练参数包括目标模型所在的第二运行环境的环境运行参数、目标模型的模型参数以及训练目标模型的脱敏数据所采用的脱敏方法；将目标训练参数确定为后续的模型训练的训练参数。
[0032]在本申请的实施例中，第一运行环境为可信环境，可信环境下的数据包括敏感数据，第二运行环境为调试环境，调试环境下的数据均为脱敏数据。
[0033]在本申请的实施例中，在通过脱敏后的样本数据对神经网络模型进行训练的模型参数，与通过未脱敏的样本数据对神经网络模型进行训练的模型参数一致。
[0034]在本申请的实施例中，模型差异值包括模型之间的提升度和/或ks统计量。
[0035]本申请第四方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得处理器被配置成执行上述的用本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于确定模型训练数据的方法，其特征在于，所述方法包括：将未进行脱敏处理的样本数据输入至神经网络模型，以对神经网络模型进行训练，得到第一模型；通过多种脱敏方法对所述样本数据进行脱敏处理，以得到与每种脱敏方法对应的脱敏数据；分别将与每种脱敏方法对应的脱敏数据输入至神经网络模型，以对神经网络模型进行训练，得到多个第二模型；确定所述第一模型和每个所述第二模型的模型参数；分别将所述第一模型的模型参数与每个第二模型的模型参数进行对比，以确定所述第一模型与每个第二模型之间的模型差异值；将所述模型差异值最小的第二模型确定为目标模型；将所述目标模型对应的脱敏方法确定为目标脱敏方法，以使用所述目标脱敏方法对样本数据进行脱敏处理得到针对神经网络模型训练的数据。2.根据权利要求1所述的用于确定模型训练数据的方法，其特征在于，所述模型差异值包括模型之间的AUC值，根据公式(1)确定每个第二模型与所述第一模型的模型差异值Y：其中，Y
i
表示为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型与所述第一模型之间的模型差异值，V
s
为所述第一模型的AUC值，V
ei
为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型的AUC值，为使用第i种脱敏方法脱敏得到的样本数据训练出来的第二模型与所述第一模型之间的过拟合程度值。3.根据权利要求1所述的用于确定模型训练数据的方法，其特征在于，所述将未进行脱敏处理的样本数据输入至神经网络模型，以对神经网络模型进行训练，得到第一模型包括：提交机器学习流水线至第一运行环境，在所述第一运行环境下将未进行脱敏处理的样本数据输入至机器学习流水线的神经网络模型，以对神经网络模型进行训练，得到第一模型；所述分别将与每种脱敏方法对应的脱敏数据输入至神经网络模型，以对神经网络模型进行训练，得到多个第二模型包括：提交机器学习流水线至第二运行环境，在所述第二运行环境下分别将与每种脱敏方法对应的脱敏数据输入至机器学习流水线的神经网络模型，以对神经网络模型进行训练，得到多个第二模型。4.根据权利要求3所述的用于确定模型训练数据的方法，其特征在于，所述方法还包括：获取所述目标模型的目标训练参数，所述目标训练参数包括所述目标模型所在的第二运行环境的环境运行参数、所述目标模型的模型参数以及训练所述目标模型的脱敏数据所采用的脱敏方法；将所述目标训练参数确定为后续的模型训练的训练参数。5.根据权利要求3所述的用于确定模型训练数据的方法，其特征在于，所述第一运行环境为可信环境，所述可信环境下的数据包括敏感数据，所述第二运行环境为调试环境，所述调试环境下的数据均为脱敏数据。
6.根据权利要求1所述的用于确定模型训练数据的方法，其特征在于，在通过脱敏后的样本数据对神经网络模型进行训练的模型参数，与通过未脱敏的样本数据对神经网络模型进行训练的模型参数一致。7.根据权利要求1所述的用于确定模型训练数据的方法，其特征在于，所述模型差异值包括模型之间的提升度和/或ks统计量。8.一种处理器，其特征在于，被配置成执行根据权利要求1至7中任意一项所述的用于确定模型训练数据的方法。9.一种用于确定模型训练数据的装置，其特征在于，所述装置包括：第一训练模块，被配置成将未进行脱敏处理的样本数据输入至神经网络模型，...

【专利技术属性】
技术研发人员：沈丽忠，陈晗，李婉华，谢立东，
申请(专利权)人：中国建设银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人