【技术实现步骤摘要】
数据处理方法、客户端、装置及计算机可读存储介质
本公开涉及人工智能
,特别涉及一种数据处理方法、客户端、装置及计算机可读存储介质。
技术介绍
谷歌提出了在客户端做端侧训练的联邦学习框架,并通过增加参与训练的客户端设备数量和通信轮数的方式,来提升联邦学习模型的分类性能。图1示出了联邦学习算法的流程示意图。如图1所示,联邦学习算法包括:步骤A,客户端从云端下载联邦学习模型;步骤B,客户端利用本地存储的私有数据训练联邦学习模型,将训练后的联邦学习模型的参数返回给云端;步骤C,云端对手机终端返回的参数进行平均化,得到一个新的共享联邦学习模型。对于联邦学习框架而言,以合作的模式利用多台客户端本地的数据训练联邦学习模型,不需要客户端将本地存储的私有数据上传到云端,因此能够大幅减少敏感信息泄漏导致的安全问题。
技术实现思路
专利技术人研究发现,现有的联邦学习技术存在两方面问题。一方面来讲,联邦学习框架在客户端本地采取监督学习的方法对联邦学习模型进行训练,因此需要客户端的用户耗费精力对私有数据进行人工标注,导致联邦学习模型的训练效率较低。另一方面,客户端的用户对私有数据进行恶意的错误标注,会导致联邦学习模型的分类性能较差。本公开解决的技术问题是,如何提高联邦学习模型的训练效率和分类性能。根据本公开实施例的一个方面,提供了一种数据处理方法,包括:从云端下载联邦学习模型和注有标签的公有数据;利用公有数据及公有数据的标签,对本地存储的私有数据进行标注;利用注有标签的私有数据训练联邦 ...
【技术保护点】
1.一种数据处理方法,包括:/n从云端下载联邦学习模型和注有标签的公有数据;/n利用所述公有数据及所述公有数据的标签,对本地存储的私有数据进行标注;/n利用注有标签的所述私有数据训练联邦学习模型,得到联邦学习模型的参数;/n将所述参数上传至云端。/n
【技术特征摘要】
1.一种数据处理方法,包括:
从云端下载联邦学习模型和注有标签的公有数据;
利用所述公有数据及所述公有数据的标签,对本地存储的私有数据进行标注;
利用注有标签的所述私有数据训练联邦学习模型,得到联邦学习模型的参数;
将所述参数上传至云端。
2.如权利要求1所述的数据处理方法,其中,所述利用所述公有数据及所述公有数据的标签,对本地存储的私有数据进行标注包括:
利用联邦学习模型的卷积层提取所述私有数据的特征向量;
对所述私有数据的特征向量进行聚类,并根据聚类结果为所述私有数据标注伪标签;
利用注有伪标签的所述私有数据训练联邦学习模型,得到联邦学习模型的卷积层参数;
利用训练后的联邦学习模型重新提取所述私有数据的特征向量,并提取所述公有数据的特征向量;
根据重新提取的所述私有数据的特征向量与所述公有数据的特征向量之间的距离,为所述私有数据标注标签。
3.如权利要求2所述的数据处理方法,其中,所述利用注有标签的所述私有数据训练联邦学习模型,得到联邦学习模型的参数包括:
利用注有标签的所述私有数据训练联邦学习模型的分类器,得到联邦学习模型的分类器参数;
将所述卷积层参数和所述分类器参数作为联邦学习模型的参数。
4.如权利要求2所述的数据处理方法,其中,对所述私有数据的特征向量进行聚类时,聚类的类别数量与所述公有数据的标签的类别数量相同。
5.如权利要求2所述的数据处理方法,其中,所述根据聚类结果为所述私有数据标注伪标签包括:
若任意的第一私有数据的特征向量与任意的第二私有数据的特征向量属于相同的聚类类别,则为所述第一私有数据和所述第二私有数据标注相同的伪标签;
若所述第一私有数据的特征向量与所述第二私有数据的特征向量属于不同的聚类类别,则为所述第一私有数据和所述第二私有数据标注不同的伪标签。
6.如权利要求2所述的数据处理方法,其中,所述根据重新提取的所述私有数据的特征向量与所述公有数据的特征向量之间的距离,为所述私有数据标注标签包括:
确定与任意的第三私有数据的特征向量距离最近的一个公有数据的特征向量;
将所述一个公有数据的特征向量所对应公有数据的标签,作为所述第三私有数据的标签;
或者,
确定与任意的第三私有数据的特征向量距离最近的多个公有数据的特征向量;
从所述多个公有数据的特征向量所对应公有数据的标签中,选择出现次数最多的标签作为所述第三私有数据的标签。
7.一种客户端,包括:
数据下载模块,被配置为从云端下载联邦学习模型和注有标签的公有数据;
数据标注模块,...
【专利技术属性】
技术研发人员:丘海华,庞涛,潘碧莹,陈学亮,张笛,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。