特征分箱方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32969820 阅读:75 留言:0更新日期:2022-04-09 11:33
本发明专利技术涉及数据处理领域,揭露一种特征分箱方法,包括:采用第一分箱方法和第一分箱数量对第一样本集中每个第一特征执行分箱操作,得到第一分箱结果;接收第二参与方发送的各个第二特征分箱后的每个第二箱子中各个样本的标签密文的和,标签密文的和是采用第二分箱方法和第二分箱数量对第二样本集中每个第二特征执行分箱操作后计算得到的;当判断第一、第二分箱结果合理时,挑选第一、第二目标特征,对第一目标特征编码,得到分箱后的数据,将第二目标特征发送给第二参与方,以供第二参与方对其编码,完成分箱。本发明专利技术还提供一种特征分箱装置、电子设备及存储介质。本发明专利技术增加了分箱灵活性,提高了分箱合理性。提高了分箱合理性。提高了分箱合理性。

【技术实现步骤摘要】
特征分箱方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种特征分箱方法、装置、电子设备及存储介质。

技术介绍

[0002]随着大众对数据安全需求的增加,联邦学习受到越来越多的关注,联邦学习将密码学与人工智能相结合,使得联合建模的各个参与方在密码技术的保护下,既不泄露自己的原始数据信息,也能联合多个参与方的数据进行联合建模。
[0003]联合建模过程中,需要对数据的各个特征进行分箱,分箱的目的是使特征离散化,以使建立的模型具有更高的鲁棒性。多方联合建模时,通常情况下不同的特征只能选择同一种分箱方法,这种方式缺乏灵活性,且可能导致分箱结果不合理,从而联合建立的模型的准确性不高。因此,亟需一种特征分箱方法,以提高分箱灵活性,保证分箱结果的合理性。

技术实现思路

[0004]鉴于以上内容,有必要提供一种特征分箱方法,旨在提高分箱灵活性,保证分箱结果的合理性。
[0005]本专利技术提供的特征分箱方法,应用于第一参与方,所述第一参与方与第二参与方通信连接,第一参与方与第二参与方具有相同的样本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种特征分箱方法,应用于第一参与方,所述第一参与方与第二参与方通信连接,其特征在于,第一参与方与第二参与方具有相同的样本对象及不同的样本特征,所述方法包括:采用同态加密密钥加密本地存储的第一样本集中每个样本的标签,得到每个样本的标签密文,建立标签密文与样本ID的映射关系,将所述映射关系发送给第二参与方;采用第一分箱方法和第一分箱数量对所述第一样本集中待分箱的每个第一特征执行分箱操作,得到每个第一特征对应的第一分箱结果,基于所述第一分箱结果计算各个第一特征分箱后的每个第一箱子中各个标签的第一数量;接收第二参与方发送的其各个第二特征分箱后的每个第二箱子中各个样本的标签密文的和,所述标签密文的和是第二参与方基于所述映射关系及第二分箱结果计算得到的,所述第二分箱结果是第二参与方采用第二分箱方法和第二分箱数量对其本地存储的第二样本集中待分箱的每个第二特征执行分箱操作得到的;基于所述第一数量及标签密文的和,判断第一分箱结果及第二分箱结果是否合理,当判断是时,分别从第一特征及第二特征中挑选待入模的第一目标特征及第二目标特征,对所述第一目标特征执行编码处理,得到分箱后的数据,将所述第二目标特征发送给第二参与方,以供第二参与方对其进行编码,完成分箱。2.如权利要求1所述的特征分箱方法,其特征在于,所述基于所述第一数量及标签密文的和,判断第一分箱结果及第二分箱结果是否合理,包括:基于所述标签密文的和,确定各个第二特征分箱后的每个第二箱子中各个标签的第二数量;基于所述第一数量对每个第一箱子中的特征编码,得到每个第一箱子对应的第一编码值,基于所述第一编码值判断对应的第一分箱结果是否合理;基于所述第二数量对每个第二箱子中的特征编码,得到每个第二箱子对应的第二编码值,基于所述第二编码值判断对应的第二分箱结果是否合理。3.如权利要求2所述的特征分箱方法,其特征在于,所述标签包括第一标签及第二标签,所述基于所述标签密文的和,确定各个第二特征分箱后的每个第二箱子中各个标签的第二数量,包括:接收第二参与方发送的各个第二特征分箱后的每个第二箱子对应的密文差值的和,所述密文差值的和是预设数值与对应的第二箱子中每个样本的标签密文的差值的和;基于所述标签密文的和,确定每个第二箱子中第一标签的第二数量;基于所述密文差值的和,确定每个第二箱子中第二标签的第二数量。4.如权利要求2所述的特征分箱方法,其特征在于,所述基于所述第一编码值判断对应的第一分箱结果是否合理,包括:若某一第一特征对应的各个第一箱子的第一编码值呈单调性,则该第一特征对应的第一分箱结果合理。5.如权利要求1所述的特征分箱方法,其特征在于,在所述判断第一分箱结果及第二分箱结果是否合理之后,所述方法还包括:若判断某一第一分箱结果不合理,则对该第一分箱结果进行调整,并对调整结果执行合理性判断;
若判断某一第二分箱结果不合理,则向第二参与方发送预警信息,以提醒第二参与方对该第二分箱结果进行调...

【专利技术属性】
技术研发人员:艾森阳
申请(专利权)人:卫盈联信息技术深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1