数据处理方法、客户端、装置及计算机可读存储介质制造方法及图纸

技术编号:27744274 阅读:30 留言:0更新日期:2021-03-19 13:38
本公开提供了一种数据处理方法、客户端、装置及计算机可读存储介质,涉及人工智能技术领域。其中数据处理方法包括:从云端下载联邦学习模型和注有标签的公有数据;利用公有数据及公有数据的标签,对本地存储的私有数据进行标注;利用注有标签的私有数据训练联邦学习模型,得到联邦学习模型的参数;将参数上传至云端。本公开能够对本地存储的私有数据进行自动标注,提高了联邦学习模型的训练效率和分类性能。

【技术实现步骤摘要】
数据处理方法、客户端、装置及计算机可读存储介质
本公开涉及人工智能
,特别涉及一种数据处理方法、客户端、装置及计算机可读存储介质。
技术介绍
谷歌提出了在客户端做端侧训练的联邦学习框架,并通过增加参与训练的客户端设备数量和通信轮数的方式,来提升联邦学习模型的分类性能。图1示出了联邦学习算法的流程示意图。如图1所示,联邦学习算法包括:步骤A,客户端从云端下载联邦学习模型;步骤B,客户端利用本地存储的私有数据训练联邦学习模型,将训练后的联邦学习模型的参数返回给云端;步骤C,云端对手机终端返回的参数进行平均化,得到一个新的共享联邦学习模型。对于联邦学习框架而言,以合作的模式利用多台客户端本地的数据训练联邦学习模型,不需要客户端将本地存储的私有数据上传到云端,因此能够大幅减少敏感信息泄漏导致的安全问题。
技术实现思路
专利技术人研究发现,现有的联邦学习技术存在两方面问题。一方面来讲,联邦学习框架在客户端本地采取监督学习的方法对联邦学习模型进行训练,因此需要客户端的用户耗费精力对私有数据进行人工标注,导致联邦学习模型的训练效率较低。另一方面,客户端的用户对私有数据进行恶意的错误标注,会导致联邦学习模型的分类性能较差。本公开解决的技术问题是,如何提高联邦学习模型的训练效率和分类性能。根据本公开实施例的一个方面,提供了一种数据处理方法,包括:从云端下载联邦学习模型和注有标签的公有数据;利用公有数据及公有数据的标签,对本地存储的私有数据进行标注;利用注有标签的私有数据训练联邦学习模型,得到联邦学习模型的参数;将参数上传至云端。在一些实施例中,利用公有数据及公有数据的标签,对本地存储的私有数据进行标注包括:利用联邦学习模型的卷积层提取私有数据的特征向量;对私有数据的特征向量进行聚类,并根据聚类结果为私有数据标注伪标签;利用注有伪标签的私有数据训练联邦学习模型,得到联邦学习模型的卷积层参数;利用训练后的联邦学习模型重新提取私有数据的特征向量,并提取公有数据的特征向量;根据重新提取的私有数据的特征向量与公有数据的特征向量之间的距离,为私有数据标注标签。在一些实施例中,利用注有标签的私有数据训练联邦学习模型,得到联邦学习模型的参数包括:利用注有标签的私有数据训练联邦学习模型的分类器,得到联邦学习模型的分类器参数;将卷积层参数和分类器参数作为联邦学习模型的参数。在一些实施例中,对私有数据的特征向量进行聚类时,聚类的类别数量与公有数据的标签的类别数量相同。在一些实施例中,根据聚类结果为私有数据标注伪标签包括:若任意的第一私有数据的特征向量与任意的第二私有数据的特征向量属于相同的聚类类别,则为第一私有数据和第二私有数据标注相同的伪标签;若第一私有数据的特征向量与第二私有数据的特征向量属于不同的聚类类别,则为第一私有数据和第二私有数据标注不同的伪标签。在一些实施例中,根据重新提取的私有数据的特征向量与公有数据的特征向量之间的距离,为私有数据标注标签包括:确定与任意的第三私有数据的特征向量距离最近的一个公有数据的特征向量;将一个公有数据的特征向量所对应公有数据的标签,作为第三私有数据的标签;或者,确定与任意的第三私有数据的特征向量距离最近的多个公有数据的特征向量;从多个公有数据的特征向量所对应公有数据的标签中,选择出现次数最多的标签作为第三私有数据的标签。根据本公开实施例的另一个方面,提供了一种客户端,包括:数据下载模块,被配置为从云端下载联邦学习模型和注有标签的公有数据;数据标注模块,被配置为利用公有数据及公有数据的标签,对本地存储的私有数据进行标注;参数获取模块,被配置为利用注有标签的私有数据训练联邦学习模型,得到联邦学习模型的参数;数据上传模块,被配置为将参数上传至云端。在一些实施例中,数据标注模块被配置为:利用联邦学习模型的卷积层提取私有数据的特征向量;对私有数据的特征向量进行聚类,并根据聚类结果为私有数据标注伪标签;利用注有伪标签的私有数据训练联邦学习模型,得到联邦学习模型的卷积层参数;利用训练后的联邦学习模型重新提取私有数据的特征向量,并提取公有数据的特征向量;根据重新提取的私有数据的特征向量与公有数据的特征向量之间的距离,为私有数据标注标签。在一些实施例中,参数获取模块被配置为:利用注有标签的私有数据训练联邦学习模型的分类器,得到联邦学习模型的分类器参数;将卷积层参数和分类器参数作为联邦学习模型的参数。在一些实施例中,数据标注模块被配置为:对私有数据的特征向量进行聚类时,聚类的类别数量与公有数据的标签的类别数量相同。在一些实施例中,数据标注模块被配置为:若任意的第一私有数据的特征向量与任意的第二私有数据的特征向量属于相同的聚类类别,则为第一私有数据和第二私有数据标注相同的伪标签;若第一私有数据的特征向量与第二私有数据的特征向量属于不同的聚类类别,则为第一私有数据和第二私有数据标注不同的伪标签。在一些实施例中,数据标注模块被配置为:确定与任意的第三私有数据的特征向量距离最近的一个公有数据的特征向量;将一个公有数据的特征向量所对应公有数据的标签,作为第三私有数据的标签;或者,确定与任意的第三私有数据的特征向量距离最近的多个公有数据的特征向量;从多个公有数据的特征向量所对应公有数据的标签中,选择出现次数最多的标签作为第三私有数据的标签。根据本公开实施例的又一个方面,提供了一种数据处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述的数据处理方法。根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述的数据处理方法。本公开能够对本地存储的私有数据进行自动标注,提高了联邦学习模型的训练效率和分类性能。通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出了联邦学习算法的流程示意图。图2示出了本公开数据处理方法的一些实施例的流程示意图。图3示出了重复数据处理方法的流程示意图。图4示出了对本地存储的私有数据进行标注的一些实施例的流程示意图。图5示出了获取联邦学习模型的参数一些实施例的流程示意图。图6示出了本公开一些实施例的客户端的结构示意图。图7示出了本公开一些实施例的数据处理装置的结构示意图。具体实施方式下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:/n从云端下载联邦学习模型和注有标签的公有数据;/n利用所述公有数据及所述公有数据的标签,对本地存储的私有数据进行标注;/n利用注有标签的所述私有数据训练联邦学习模型,得到联邦学习模型的参数;/n将所述参数上传至云端。/n

【技术特征摘要】
1.一种数据处理方法,包括:
从云端下载联邦学习模型和注有标签的公有数据;
利用所述公有数据及所述公有数据的标签,对本地存储的私有数据进行标注;
利用注有标签的所述私有数据训练联邦学习模型,得到联邦学习模型的参数;
将所述参数上传至云端。


2.如权利要求1所述的数据处理方法,其中,所述利用所述公有数据及所述公有数据的标签,对本地存储的私有数据进行标注包括:
利用联邦学习模型的卷积层提取所述私有数据的特征向量;
对所述私有数据的特征向量进行聚类,并根据聚类结果为所述私有数据标注伪标签;
利用注有伪标签的所述私有数据训练联邦学习模型,得到联邦学习模型的卷积层参数;
利用训练后的联邦学习模型重新提取所述私有数据的特征向量,并提取所述公有数据的特征向量;
根据重新提取的所述私有数据的特征向量与所述公有数据的特征向量之间的距离,为所述私有数据标注标签。


3.如权利要求2所述的数据处理方法,其中,所述利用注有标签的所述私有数据训练联邦学习模型,得到联邦学习模型的参数包括:
利用注有标签的所述私有数据训练联邦学习模型的分类器,得到联邦学习模型的分类器参数;
将所述卷积层参数和所述分类器参数作为联邦学习模型的参数。


4.如权利要求2所述的数据处理方法,其中,对所述私有数据的特征向量进行聚类时,聚类的类别数量与所述公有数据的标签的类别数量相同。


5.如权利要求2所述的数据处理方法,其中,所述根据聚类结果为所述私有数据标注伪标签包括:
若任意的第一私有数据的特征向量与任意的第二私有数据的特征向量属于相同的聚类类别,则为所述第一私有数据和所述第二私有数据标注相同的伪标签;
若所述第一私有数据的特征向量与所述第二私有数据的特征向量属于不同的聚类类别,则为所述第一私有数据和所述第二私有数据标注不同的伪标签。


6.如权利要求2所述的数据处理方法,其中,所述根据重新提取的所述私有数据的特征向量与所述公有数据的特征向量之间的距离,为所述私有数据标注标签包括:
确定与任意的第三私有数据的特征向量距离最近的一个公有数据的特征向量;
将所述一个公有数据的特征向量所对应公有数据的标签,作为所述第三私有数据的标签;
或者,
确定与任意的第三私有数据的特征向量距离最近的多个公有数据的特征向量;
从所述多个公有数据的特征向量所对应公有数据的标签中,选择出现次数最多的标签作为所述第三私有数据的标签。


7.一种客户端,包括:
数据下载模块,被配置为从云端下载联邦学习模型和注有标签的公有数据;
数据标注模块,...

【专利技术属性】
技术研发人员:丘海华庞涛潘碧莹陈学亮张笛
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1