数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号:29024135 阅读:26 留言:0更新日期:2021-06-26 05:25
本公开提供了一种数据处理方法、装置、设备和存储介质,涉及数据处理技术领域,尤其涉及大数据、人工智能和区块链技术,可用于云计算和云服务。具体实现方案由多方节点中的任一节点执行,包括:根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定目标统计值;根据目标统计值,对第一样本数据进行标准化处理;目标统计值包括多方节点的全部样本数据在预定特征维度下的特征总均值、特征总方差和特征总标准差中的至少一种。本公开的技术方案使得多方节点中的各节点在对各自样本数据进行统一标准化的同时,避免了直接进行初始统计值交互造成各节点数据隐私的泄露。数据隐私的泄露。数据隐私的泄露。

【技术实现步骤摘要】
数据处理方法、装置、设备和存储介质


[0001]本公开涉及数据处理
,尤其涉及大数据、人工智能和区块链技术,可用于云计算和云服务。

技术介绍

[0002]随着人工智能技术的发展,机器学习在各个场景中得到了越来越广泛的应用。在机器学习的方案中,在开始训练模型之前,通常需要对样本集合进行标准化处理,以消除量纲影响,并加速模型收敛。
[0003]在分布式机器学习中,多个参与方需要共享样本数据,以实现各方样本数据的统一标准化。然而,上述方式给各参与方的数据安全带来了隐患。

技术实现思路

[0004]本公开提供了一种多方节点在保证数据隐私的情况下,进行统一标准化的数据处理方法、装置、设备和存储介质。
[0005]根据本公开的一方面,提供了一种数据处理方法,由多方节点中的任一节点执行,包括:根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定目标统计值;根据所述目标统计值,对所述第一样本数据进行标准化处理;其中,所述目标统计值包括所述多方节点的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,由多方节点中的任一节点执行,包括:根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定目标统计值;根据所述目标统计值,对所述第一样本数据进行标准化处理;其中,所述目标统计值包括所述多方节点的全部样本数据在预定特征维度下的特征总均值、特征总方差和特征总标准差中的至少一种。2.根据权利要求1所述的方法,其中,所述初始统计值的偏离秘密包括样本数量的偏离秘密和所述预定特征维度下的特征和值的偏离秘密;所述根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定特征总均值,包括:根据所述第一样本数据的样本数量的偏离秘密,以及获取的各所述第二样本数据的样本数量的偏离秘密,确定样本总数量;以及,根据所述第一样本数据在所述预定特征维度下的特征和值的偏离秘密,以及获取的各所述第二样本数据在对应特征维度下的特征和值的偏离秘密,确定所述预定特征维度下的特征总和值;根据所述样本总数量和所述预定特征维度下的特征总和值,确定所述预定特征维度下的特征总均值。3.根据权利要求1所述的方法,其中,所述初始统计值的偏离秘密包括样本数量的偏离秘密;所述根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定特征总均值,包括:根据所述第一样本数据的样本数量的偏离秘密,以及各所述第二样本数据的样本数量的偏离秘密,确定样本总数量;根据所述样本总数量和所述第一样本数据在所述预定特征维度下的特征和值,确定所述第一样本数据在所述预定特征维度下的模拟特征均值;根据所述第一样本数据在所述预定特征维度下的模拟特征均值的偏离秘密,以及获取的各第二样本数据在相应特征维度下的模拟特征均值的偏离秘密,确定所述预定特征维度下的特征总均值。4.根据权利要求1所述的方法,其中,所述初始统计值的偏离秘密包括样本数量的偏离秘密和所述预定特征维度下的特征偏离和值的偏离秘密;所述根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定特征总标准差和/或特征总方差,包括:根据所述第一样本数据的样本数量的偏离秘密,以及获取的各所述第二样本数据的样本数量的偏离秘密,确定样本总数量;以及,根据所述第一样本数据在所述预定特征维度下的特征偏离和值的偏离秘密,以及获取的各所述第二样本数据在对应特征维度下的特征偏离和值的偏离秘密,确定所述预定特征维度下的特征偏离总和值;根据所述样本总数量和所述预定特征维度下的特征偏离总和值,确定所述预定特征维度下的特征总标准差和/或特征总方差。5.根据权利要求1所述的方法,其中,所述初始统计值的偏离秘密包括样本数量的偏离
秘密;所述根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定特征总标准差和/或特征总方差,包括:根据所述第一样本数据的样本数量的偏离秘密,以及获取的各所述第二样本数据的样本数量的偏离秘密,确定样本总数量;根据所述样本总数量和所述第一样本数据在所述预定特征维度下的特征偏离和值,确定所述第一样本数据在所述预定特征维度下的模拟特征方差;根据所述第一样本数据在所述预定特征维度下的模拟特征方差的偏离秘密,以及获取的各第二样本数据在相应特征维度下的模拟特征方差的偏离秘密,确定所述预定特征维度下的特征总标准差和/或特征总方差。6.根据权利要求1

5任一项所述的方法,其中,样本数据包括样本特征数据和/或标签特征数据;所述样本数据包括所述第一样本数据和所述第二样本数据。7.根据权利要求1

5任一项所述的方法,还包括:基于标准化智能合约,向区块链网络发布包括样本需求的节点匹配请求;接收矿工节点反馈的满足所述样本需求的所述多方节点的标识信息。8.根据权利要求1

5任一项所述的方法,还包括:基于标准化智能合约向区块链网络发布标准化完成消息,以供所述区块链网络中的区块链节点根据所述标准化完成消息,进行标准化结果的查找。9.一种数据处理装置,配置于多方节点中的任一节点,包括:目标统计值确定模块,用于根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定目标统计值;标准化处理模块,用于根据所述目标统计值,对所述第一样本数据进行标准化处理;其中,所述目标统计值包括所述多方节...

【专利技术属性】
技术研发人员:荆博
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1