一种基于共享数据的模型训练方法及装置制造方法及图纸

技术编号：20448743 阅读：24 留言：0更新日期：2019-02-27 02:53

公开了一种基于共享数据的模型训练方法及装置。该方案用于根据海量数据样本训练数据模型，其中数据样本来源于多个数据提供方，由于不同的数据提供方可以分别从不同的维度提供数据样本特征，因此将各个数据提供方的共享的数据整合后，可以形成特征维度更丰富的数据样本，从而训练出效果更佳的数据模型，同时可以保证数据共享的安全性问题。

A Model Training Method and Device Based on Shared Data

A model training method and device based on shared data are disclosed. The scheme is used to train data model according to massive data samples, in which data samples come from multiple data providers. Because different data providers can provide data sample features from different dimensions, after integrating the data shared by different data providers, data samples with richer feature dimensions can be formed, thus better data models can be trained. Type B can also ensure the security of data sharing.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于共享数据的模型训练方法及装置
本说明书实施例涉及数据挖掘
，尤其涉及一种基于共享数据的模型训练方法及装置。
技术介绍
在大数据时代，通过对海量数据进行挖掘，可以获得各种形式的有用信息，因此数据的重要性不言而喻。不同的机构都拥有各自的数据，但是任何一家机构的数据挖掘效果，都会受限于其自身拥有的数据数量和种类。针对该问题，一种直接的解决思路是：多家机构相互合作，将数据进行共享，从而实现更好的数据挖掘效果，实现共赢。然而对于数据拥有方而言，数据本身是一种具有很大价值的资产，而且出于保护隐私、防止泄露等需求，数据拥有方往往并不愿意直接把数据提供出来，这种状况导致“数据共享”在现实中很难实际运作。因此，如何在充分保证数据安全的前提下实现数据共享，已经成为行业内备受关注的问题。
技术实现思路
针对上述技术问题，本说明书实施例提供一种基于共享数据的模型训练方法及装置，技术方案如下：根据本说明书实施例的第一方面，提供一种基于共享数据的模型训练方法，数据挖掘方维护全局参数集Wglobal＝(W1,W2,…,WU)，其中Wu(u＝1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集；所述方法包括：利用以下步骤进行迭代训练，直到满足模型训练要求：任一数据提供方u从数据挖掘方下载Wu，利用具有特征Xu的本地数据以及下载得到的Wu计算gradu，并将gradu上传至数据挖掘方，其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值；数据挖掘方获得各数据提供方u上传的gradu，利用gradu以及参数更新公式对Wglobal进行更新；其中，所述参数更新公式根据...

【技术保护点】
1.一种基于共享数据的模型训练方法，数据挖掘方维护全局参数集Wglobal＝(W1,W2,…,WU)，其中Wu(u＝1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集；所述方法包括：利用以下步骤进行迭代训练，直到满足模型训练要求：任一数据提供方u从数据挖掘方下载Wu，利用具有特征Xu的本地数据以及下载得到的Wu计算gradu，并将gradu上传至数据挖掘方，其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值；数据挖掘方获得各数据提供方u上传的gradu，利用gradu以及参数更新公式对Wglobal进行更新；其中，所述参数更新公式根据JN(w)确定，JN(w)为对J(w)添加噪声处理后的模型代价函数，且JN(w)满足差分隐私定义。

【技术特征摘要】
1.一种基于共享数据的模型训练方法，数据挖掘方维护全局参数集Wglobal＝(W1,W2,…,WU)，其中Wu(u＝1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集；所述方法包括：利用以下步骤进行迭代训练，直到满足模型训练要求：任一数据提供方u从数据挖掘方下载Wu，利用具有特征Xu的本地数据以及下载得到的Wu计算gradu，并将gradu上传至数据挖掘方，其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值；数据挖掘方获得各数据提供方u上传的gradu，利用gradu以及参数更新公式对Wglobal进行更新；其中，所述参数更新公式根据JN(w)确定，JN(w)为对J(w)添加噪声处理后的模型代价函数，且JN(w)满足差分隐私定义。2.根据权利要求1所述的方法，所述JN(w)由J(w)和N(w)共同确定，其中N(w)为噪声项，且n为参与运算的样本数量，w为长度为L的向量，L为Wglobal中包含的参数总数，beta＝η*φ，η为从标准高斯分布中采样出的长度为L的向量，φ为从α＝L、的伽马分布中采样出的标量，ε和c为设定的噪声参数。3.根据权利要求2所述的方法，JN(w)＝J(w)+N(w)，所述J(w)为不包含正则化的代价函数，或者所述J(w)为包含正则化的代价函数。4.根据权利要求2所述的方法，所述J(w)为包含正则化的代价函数：其中λ为2范数的约束系数；则所述5.根据权利要求4所述的方法，所述参数更新公式为：其中a为设定的学习率，betau为beta中对应于Wu的分量。6.一种基于共享数据的模型训练方法，数据挖掘方维护全局参数集Wglobal＝(W1,W2,…,WU)，其中Wu(u＝1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集；所述方法包括：利用以下步骤进行迭代训练，直到满足模型训练要求：任一数据提供方u从数据挖掘方下载Wu，利用具有特征Xu的本地数据以及下载得到的Wu计算gradu；所述gradu为模型代价函数J(w)的梯度；将gradu上传至数据挖掘方，以使得数据挖掘方利用各数据提供方u上传的gradu以及参数更新公式对Wglobal进行更新；所述参数更新公式根据JN(w)确定，JN(w)为对J(w)添加噪声处理后的模型代价函数，且JN(w)满足差分隐私定义。7.一种基于共享数据的模型训练方法，数据挖掘方维护全局参数集Wglobal＝(W1,W2,…,WU)，其中Wu(u＝1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集；所述方法包括：利用以下步骤进行迭代训练，直到满足模型训练要求：数据挖掘方向各数据提供方u提供Wu，以使得数据提供方u利用具有特征Xu的本地数据以及下载得到的Wu计算gradu；所述gradu为模型代价函数J(w)的梯度；接收数据提供方u上传的gradu，利用gradu以及参数更新公式对Wglobal进行更新；其中，所述参数更...

【专利技术属性】
技术研发人员：李龙飞，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人