多方联合进行特征分箱的方法和装置制造方法及图纸

技术编号:39038902 阅读:19 留言:0更新日期:2023-10-10 11:51
本说明书实施例提供了保护隐私的多方联合进行特征分箱的方法和装置。根据该方法,多个数据方中任意的一方执行多轮迭代,其中第i轮迭代包括以下步骤。首先基于本地样本的样本信息,确定目标分位点在第i

【技术实现步骤摘要】
多方联合进行特征分箱的方法和装置


[0001]本说明书一个或多个实施例涉及多方安全计算,尤其涉及多方联合进行特征分箱的方法和装置。

技术介绍

[0002]在互联网大数据场景下,各个平台沉淀并积累了大量的数据,其中包括涉及用户个人信息的隐私数据。为了增大数据价值,同时保护隐私数据安全,提出了一些通过隐私计算进行联合数据处理的方案。联邦学习(Federated Learn ing)是其中常见的联合建模的方案。具体的,联邦学习是一种分布式机器学习技术,其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型,从而实现数据隐私保护和数据共享计算的平衡,使得数据可用不可见。
[0003]在包括联邦学习的多种联合数据处理场景中,都需要对本地样本的特征数据进行联合的预处理。特征分箱是特征预处理中常见的一种操作。因此,希望能有改进的方案,可以更加安全高效地进行联合特征分箱处理。

技术实现思路

[0004]本说明书一个或多本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种保护隐私的多方联合进行特征分箱的方法,通过多个数据方中任意的第一方执行,所述方法包括多轮迭代,其中第i轮迭代包括:基于本地样本的样本信息,确定等频分箱的N个分位点中的目标分位点在第i

1轮的第一特征值在本地样本中的本地排序;向服务器发送第一消息,其中包括与所述本地排序相关的排序信息;从所述服务器接收第二消息,其至少指示目标全局排序与当前全局排序的大小关系;其中,所述目标全局排序是所述目标分位点在所述多个数据方的总量样本数据中的应有排序,所述当前全局排序由所述服务器基于所述多个数据方发送的针对所述目标分位点的排序信息进行聚合操作而确定;在与所述大小关系对应的调整方向,按照约定方式将所述第一特征值调整为第二特征值。2.根据权利要求1所述的方法,其中,当所述第i轮迭代为首轮迭代,所述第一特征值为所述多个数据方共有的初始值。3.根据权利要求2所述的方法,其中,所述初始值通过将特征范围等宽划分为N+1个区间而得到。4.根据权利要求1所述的方法,其中,所述样本信息为具有预定数据结构的统计信息,所述统计信息包括,本地样本中出现的各个特征值,以及基于各个特征值在本地样本中的排序得到的排序函数。5.根据权利要求4所述的方法,其中,确定等频分箱的N个分位点中的目标分位点在第i

1轮的第一特征值在本地样本中的第一排序,包括:利用所述排序函数,查询得到所述第一特征值对应的所述本地排序。6.根据权利要求4所述的方法,所述统计信息通过以下方式得到:根据所述本地样本的全量数据,确定本地的等频分位点;根据本地的等频分位点,推导得到所述排序函数;按照所述预定数据结构整理所述本地样本中出现的各个特征值以及所述排序函数,得到所述统计信息。7.根据权利要求1所述的方法,其中,所述排序信息为所述本地排序的密文。8.根据权利要求1所述的方法,其中,若所述大小关系为目标全局排序小于当前全局排序,则所述调整方向为减小;若所述大小关系为目标全局排序大于当前全局排序,则所述调整方向为增大。9.根据权利要求1所述的方法,其中,按照约定方式将所述第一特征值调整为第二特征值,包括:将从第一特征值开始沿所述调整方向遇到的首个已有特征值确定为第三特征值,其中,所述已有特征值包括之前轮次已评估过的各分位点的备选特征值,以及特征范围的端点;将所述第一特征值与第三特征值的中间值,确定为所述第二特征值。10.根据权利要求1所述的方法,还包括:从所述服务器接收第三消息,其指示目标全局排序与当前全局排序的差距小于预设阈值;
将所述目标分位点在上一轮的特征值确定为分位特征值。11.根据权利要求1所述的方法,在所述多轮迭代之前,还包括:向所述服务器发送样本元信息,使其基于所述多个数据方发送的样本元信息确定所述目标全局排序。12.一种保护隐私的多方联合进行特征分箱的方法,通过服务器执行,所述方法包括多轮迭代,其中第i轮迭代包括:从多个数据方中的各个数据方接收第一消息,其中包括针对等频分箱的N个分位点中的目标分位点的排序信息,所述排序信息对应于所述目标分位点在第i

1轮的第一特征值在对应数据方的本地样本中的本地排序;通过将所述多个数据方发送的针对所述目标分位点的排序信息进行聚合操作,确定当前全局排序;将所述当前全局排序与预先确定的目标全局排序进行比对,其中所述目标全局排序是所述目标分位点在所述多个数据方的总量样本数据中的应有排序;向各个数据方发送第二消息...

【专利技术属性】
技术研发人员:张兴盟王磊
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1