一种样本聚类处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:37428643 阅读:29 留言:0更新日期:2023-04-30 09:49
本公开实施例提供了一种样本聚类处理方法,包括:基于本地的各样本的特征信息,获取各样本的本地样本距离信息;基于预设协议对本地样本距离信息进行处理,获取各所述样本的全特征维度距离信息;其中,预设协议包括以下至少之一:SPDZ、ABY、ABY3或NPDZ;基于全特征维度距离信息,获取各样本的聚类信息;基于各样本的聚类信息,将本地的各样本进行聚类处理。通过使用预设协议,可以使得本地服务器能够基于本地样本距离信息完成各样本的全特征维度距离信息计算,而不需要借助于中心服务器进行计算,从而解决了相关技术中难以找到可信中心服务器的问题,实现对位于联邦学习系统中的多个本地服务器中的样本进行聚类处理和无监督学习。习。习。

【技术实现步骤摘要】
一种样本聚类处理方法、装置、存储介质及电子设备


[0001]本公开涉及计算机
,具体涉及联邦学习等
,尤其涉及一种样本聚类处理方法、装置、存储介质及电子设备。

技术介绍

[0002]联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在2016年由Google最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算节点之间开展高效率的机器学习。
[0003]联邦学习平台一般由数据持有方节点和中心服务器节点组成。各数据持有方的本地数据的数量或特征数可能并不足以支持一次成功的模型训练,因此需要其他数据持有方的支持,而联邦学习中心服务器的工作类似于分布式机器学习的中心服务器。以分类任务为例,中心服务器收集各数据持有方的梯度,并在服务器内进行聚合操作后返回新的梯度。在一次联邦学习的合作建模过程中,数据持有方对本地数据的训练仅发生在本地,以保护数据隐私,迭代产生的梯度在脱敏后被作为交互信息,代替本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本聚类处理方法,其中,包括:基于本地的各样本的特征信息,获取各所述样本的本地样本距离信息;基于预设协议对所述本地样本距离信息进行处理,获取各所述样本的全特征维度距离信息;其中,所述预设协议包括以下至少之一:SPDZ、ABY、ABY3或NPDZ;基于所述全特征维度距离信息,获取各所述样本的聚类信息;基于各所述样本的聚类信息,将本地的各所述样本进行聚类处理。2.根据权利要求1所述的方法,其中,所述基于所述全特征维度距离信息,获取各所述样本的聚类信息,包括:基于MapReduce模型对各所述样本的全特征维度距离信息进行处理,获取各所述样本的局部密度;基于MapReduce模型对所述样本的局部密度进行处理,获取各所述样本的跟随距离。3.根据权利要求2所述的方法,其中,所述基于MapReduce模型对各所述样本的全特征维度距离信息进行处理,获取各所述样本的局部密度,包括:在Map任务中获取各所述样本的全特征维度的距离信息;在Reduce任务中根据所述距离信息设置距离阈值,并基于各所述样本的全特征维度的距离信息和所述距离阈值,计算各所述样本的局部密度。4.根据权利要求2所述的方法,其中,在基于各所述样本的全特征维度的距离信息和各所述样本的截断阈值,计算各所述样本的局部密度之后,还包括:对各所述样本的局部密度进行归一化处理。5.根据权利要求2

4中任一项所述的方法,其中,所述基于MapReduce模型对所述样本的局部密度进行处理,获取各所述样本的跟随距离,包括:在Map任务中获取各所述样本的局部密度;在Reduce任务中获取所述局部密度的最大值,并将所述局部密度添加至密度列表中;对所述密度列表中的局部密度进行排序;在Map...

【专利技术属性】
技术研发人员:彭胜波周宏陈林侯雄辉
申请(专利权)人:中国烟草总公司贵州省公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1