数据标签分布确定方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:29943350 阅读:17 留言:0更新日期:2021-09-08 08:26
本申请涉及一种数据标签分布确定方法、装置、计算机设备和存储介质,该方法包括:获取标签方设备对多个样本标识对应的样本标签进行同态加密处理后发送的标签密文信息;获取样本特征集合对应的初始分箱信息,样本特征集合包括多个样本标识对应的样本特征,初始分箱信息包括各个样本特征对应的初始分箱;基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息;对各个初始密文统计信息进行混淆处理得到目标密文统计信息序列;获取标签方设备对目标密文统计信息序列进行同态解密处理后返回的目标解密统计信息序列,对目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。采用本方法能提高数据交互安全性。提高数据交互安全性。提高数据交互安全性。

【技术实现步骤摘要】
数据标签分布确定方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种数据标签分布确定方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着计算机技术的发展,可以在网络上传输、存储的数据日益增长。不同公司不同部门之间通常存储、维护着不同的数据,例如,部门A存储有样本的标签,部门B存储有样本的特征。
[0003]基于业务需求,不同公司不同部门之间有些时候需要进行数据交互,联合对方的数据进行数据分析,例如,部门B可以借助部门A的标签数据确定本地样本标签的分布情况。然而,存储、维护着不同数据的持有方之间通常是独立维护各自的数据,若直接进行数据交互,不利于维护双方的数据隐私,会导致数据泄露,存在一定的安全隐患。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高数据交互安全性的数据标签分布确定方法、装置、计算机设备和存储介质。
[0005]一种数据标签分布确定方法,应用于特征方设备,所述方法包括:获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
[0006]一种数据标签分布确定装置,所述装置包括:标签密文获取模块,用于获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;分箱信息获取模块,用于获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个
样本特征对应的初始分箱;密文统计模块,用于基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;密文混淆模块,用于对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;密文解密模块,用于将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;标签分布确定模块,用于获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
[0007]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
[0008]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序
列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
[0009]一种数据标签分布确定方法,应用于标签方设备,所述方法包括:获取与所述标签方设备对应的多个样本标识匹配的样本标签;对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息;将所述标签密文信息发送至特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;获取所述特征方设备发送的目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;将所述目标解密统计信息序列发送至所述特征方设备,以使所述特征方设备对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
[0010]一种数据标签分布确定装置,所述装置包括:标签获取模块,用于获取与标签方设备对应的多个样本标识匹配的样本标签;标签密文生成模块,用于对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息;标签密文发送模块,用于将所述标签密文信息发送至特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;信息解密模块,用于获取所述特征方设备发送的目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;解密信息发送模块,用于将所述目标解密统计信息序列发送至所述特征方设备,以使所述特征方设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标签分布确定方法,其特征在于,应用于特征方设备,所述方法包括:获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。2.根据权利要求1所述的方法,其特征在于,所述获取样本特征集合对应的初始分箱信息,包括:对所述样本特征集合进行初始分箱处理,得到至少两个初始分箱;所述初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种;基于各个初始分箱得到所述初始分箱信息。3.根据权利要求2所述的方法,其特征在于,所述对所述样本特征集合进行初始分箱处理,得到至少两个初始分箱,包括:从所述样本特征集合中获取同一特征维度的样本特征组成样本特征子集,得到各个特征维度对应的初始样本特征子集;对各个初始样本特征子集进行初始分箱处理,得到各个特征维度对应的第一分箱信息;所述第一分箱信息包括同一特征维度对应的至少两个有序排列的初始分箱;基于各个第一分箱信息得到所述初始分箱信息。4.根据权利要求1所述的方法,其特征在于,所述基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,包括:将所述标签方设备对应的各个样本标识和所述特征方设备对应的各个样本标识之间交叉的样本标识作为目标样本标识;从所述标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文;对各个目标标签密文进行统计,得到所述当前初始分箱对应的初始密文统计信息。5.根据权利要求1所述的方法,其特征在于,所述对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,包括:对各个初始密文统计信息进行噪声添加,得到各个初始密文统计信息对应的目标密文统计信息;基于各个目标密文统计信息得到所述目标密文统计信息序列。6.根据权利要求5所述的方法,其特征在于,所述基于各个目标密文统计信息得到所述
目标密文统计信息序列,包括:对所述各个目标密文统计信息进行随机排序,得到所述目标密文统计信息序列。7.根据权利要求1所述的方法,其特征在于,所述对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息,包括:获取排序映射信息;所述排序映射信息是基于所述初始密文统计信息的初始排序信息和所述初始密文统计信息对应的目标密文统计信息的目标排序信息生成的;基于所述排序映射信息对所述目标解密统计信息序列进行排序还原,得到初始解密统计信息序列;对所述初始解密统计信息序列中各个初始解密统计信息进行噪声去除,得到各个初始解密统计信息对应的目标解密统计信息;获取各个初始分箱对应的样本特征数量;基于同一初始分箱对应的目标解密统计信息和样本特征数量得到各个初始分箱对应的初始标签分布信息。8.根据权利要求1至7任意一项所述的方法,其特征在于,所述方法还包括:获取各个初始分箱对应的初始分箱价值信息;基于初始分箱价值信息对初始分箱信息进行调整,得到更新的初始分箱信息,基于所述更新的初始分箱信息得到更新的各个初始分箱对应的初始分箱价值信息,直至更新的初始分箱信息或初始分箱价值信息满足收敛条件,停止调整,得到目标分箱信息。9.根据权利要求8所述的方法,其特征在于,所述获取各个初始分箱对应的初始分箱价值信息,包括:基于各个初始分箱对应的初始标签分布信息计算各个初始分箱对应的初始标签分布差异;基于所述各个初始分箱对应的初始标签分布信息和初始标签分布差异计算各个初始分箱对应的初始分箱价值信息。10.根据权利要求8所述的方法,其特征在于,所述获取各个初始分箱对应的初始分箱价值信息,包括:获取标签方设备发送的正标签总数量和负标签总数量;基于所述各个初始分箱对应的初始密文统计信息、样本特征数量、正标签总数量和负标签总数量得到各个初始分箱对应的中间密文统计信息;对各个中间密文统计信息进行混淆处理,得到第一密文统计信息序列;将所述第一密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述第一密文统计信息序列进行同态解密处理,得到第一解密统计信息序列,基于所述第一解密统计信息序列得到第一分箱价值信息序列;获取所述标签方设备返回的第一分箱价值信息序列,对所述第一分箱价值信息序列进行还原处理,得到各个初始分箱对应的初始分箱价值信息。11.根据权利要求10所述的方法,其特征在于,所述第一解密统计信息序列包括多个第一解密统计信息,所述第一解密统计信息包括正标签参考比例和负标签参考比例,所述基于所述第一解密统计信息序列得到第一分箱价值信息序列,包括:所述标签方设备基于第一解密统计信息包含的正标签参考比例和负标签参考比例,计
算各个第一解密统计信息对应的中间标签分布差异和标签参考比例差异;基于同一第一解密统计信息对应的中间标签分布差异和标签参考比例差异,计算各个第一解密统计信息对应的第一分箱价值信息;基于各个第一分箱价值信息得到所述第一分箱价值信息序列。12.根据权利要求8所述的方法,其特征在于,所述基于初始分箱价值信息对初始分箱信息进行调整,得到更新的初始分箱信息,包括:将各个初始分箱中的相邻初始分箱进行合并,得到多个候选合并分箱;计算各个候选合并分箱对应的候选分箱价值信息;基于候选合并分箱对应的候选分箱价值信息和相邻初始分箱对应的初始分箱价值信息计算候选合并分箱对应的分箱价值差异;基于各个候选合并分箱对应的分箱价值差异,从多个候选合并分箱中确定目标合并分箱,基于所述目标合并分箱和剩余的初始分箱得到所述更新的初始分箱信息。13.根据权利要求12所述的方法,其特征在于,所述计算各个候选合并分箱对应的候选分箱价值信息,包括:基于相邻初始分箱对应的初始标签分布信息计算候选合并分箱对应的候选标签分布信息;基于所述各个候选合并分箱对应的候选标签分布信息计算各个候选合并分箱对应的候选标签分布差异,基于所述各个候选合并分箱对应的候选标签分布差异和候选标签分布信息计算各个候选合并分箱对应的候选分箱价值信息。14.根据权利要求12所述的方法,其特征在于,所述计算各个候选合并分箱对应的候选分箱价值信息,包括:获取标签方设备发送的正标签总数量和负标签总数量;基于相邻初始分箱对应的初始密文统计信息计算候选合并分箱对应的初始密文统计信息;基于各个候选合并分箱对应的初始密文统计信息、所述正标签总数量和所述负标签总数量得到各个候选合并分箱对应的第二密文统计信息;对各个第二密文统计信息进行混...

【专利技术属性】
技术研发人员:范晓亮蒋杰程勇刘煜宏陈鹏陶阳宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1