数据处理方法、装置、介质及电子设备制造方法及图纸

技术编号:39257605 阅读:7 留言:0更新日期:2023-10-30 12:09
本申请属于计算机技术领域,具体涉及一种数据处理方法、数据处理装置、计算机可读介质、电子设备以及计算机程序产品。该方法包括:获取由第一主体持有的特征序列,所述特征序列包括对目标实体的原始特征进行拼接处理得到的衍生特征;获取由所述第一主体持有的交集秘密分片,所述交集秘密分片对应的明文用于指示所述特征序列中的各个元素是否为所述第一主体与第二主体持有数据的交集数据;根据所述第一主体持有的交集秘密分片预测所述目标实体是否为所述第一主体和所述第二主体共同持有特征的实体。本申请可以提高数据的安全性。本申请可以提高数据的安全性。本申请可以提高数据的安全性。

【技术实现步骤摘要】
数据处理方法、装置、介质及电子设备


[0001]本申请属于计算机
,具体涉及一种数据处理方法、数据处理装置、计算机可读介质、电子设备以及计算机程序产品。

技术介绍

[0002]记录链接是在数据集中查找跨越不同数据源(例如,数据文件、书籍、网站和数据库等)引用同一实体的记录的任务。传统的记录链接的方法是基于明文对不同数据源的记录数据进行比对以判断其是否归属于相同的实体,这种链接方法存在安全性差的问题。

技术实现思路

[0003]本申请提供一种数据处理方法、数据处理装置、计算机可读介质、电子设备以及计算机程序产品,目的在于提高数据安全性。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0005]根据本申请实施例的一个方面,提供一种数据处理方法,该方法包括:
[0006]获取由第一主体持有的特征序列,所述特征序列包括对目标实体的原始特征进行拼接处理得到的衍生特征;
[0007]获取由所述第一主体持有的交集秘密分片,所述交集秘密分片对应的明文用于指示所述特征序列中的各个元素是否为所述第一主体与第二主体持有数据的交集数据;
[0008]根据所述第一主体持有的交集秘密分片预测所述目标实体是否为所述第一主体和所述第二主体共同持有特征的实体。
[0009]根据本申请实施例的一个方面,提供一种数据处理装置,该装置包括:
[0010]第一获取模块,被配置为获取由第一主体持有的特征序列,所述特征序列包括对目标实体的原始特征进行拼接处理得到的衍生特征;
[0011]第二获取模块,被配置为获取由所述第一主体持有的交集秘密分片,所述第一秘密分片对应的明文用于指示所述特征序列中的各个元素是否为所述第一主体与第二主体持有数据的交集数据;
[0012]预测模块,被配置为根据所述第一主体持有的交集秘密分片预测所述目标实体是否为所述第一主体和所述第二主体共同持有特征的实体。
[0013]在本申请的一些实施例中,基于以上技术方案,
[0014]根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的数据处理方法。
[0015]根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的数据处理方法。
[0016]根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算
机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的数据处理方法。
[0017]在本申请实施例提供的技术方案中,通过将目标实体的原始特征拼接形成衍生特征,可以利用多种实体特征的组合关系,提高共同实体判断的准确性,有效应对原始特征缺省或者记录错误等特殊情况;而且,本申请实施例利用包括衍生特征的特征序列进行共同实体预测,无需获知另一主体的明文数据,提高了数据隐私的安全性。
[0018]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
[0021]图2示出了本申请一个实施例中基于衍生特征进行记录链接的数据处理方法。
[0022]图3示出了本申请一个实施例中基于预测模型进行记录链接的数据处理方法。
[0023]图4示出了本申请一个实施例中根据明文数据训练得到预测模型的过程示意图。
[0024]图5示出了本申请实施例在一个应用场景中对不同主体持有数据进行记录链接的过程示意图。
[0025]图6示出了本申请相关技术中采用布谷鸟哈希进行隐私集合求交的原理示意图。
[0026]图7示出了本申请一个实施例中基于位置逆映射进行隐私集合求交的数据处理方法。
[0027]图8示出了本申请一个实施例中基于对位置逆映射做映射分解进行隐私集合求交的数据处理方法。
[0028]图9示出了本申请一个实施例中对位置映射进行分解的原理示意图。
[0029]图10示出了本申请一个实施例中基于不经意复制和不经意置换进行数据处理的原理示意图。
[0030]图11示出了本申请一个实施例中基于第一子映射分解实现不经意复制的原理示意图。
[0031]图12示出了本申请一个实施例中不经意置换使用的映射单元示意图。
[0032]图13示出了本申请一个实施例中不经意复制使用的映射单元示意图。
[0033]图14示出了本申请一个实施例中,由映射单元组成串行网络的结构示意图。
[0034]图15示出了本申请一个实施例中由映射单元组成并行网络的结构示意图。
[0035]图16示意性地示出了本申请实施例提供的数据处理装置的结构框图。
[0036]图17示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
[0037]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
[0038]此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
[0039]附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0040]附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0041]在本申请的具体实施方式中,涉及到用户信息等相关的隐私数据,当本申请的各个实施例运用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取由第一主体持有的特征序列,所述特征序列包括对目标实体的原始特征进行拼接处理得到的衍生特征;获取由所述第一主体持有的交集秘密分片,所述交集秘密分片对应的明文用于指示所述特征序列中的各个元素是否为所述第一主体与第二主体持有数据的交集数据;根据所述第一主体持有的交集秘密分片预测所述目标实体是否为所述第一主体和所述第二主体共同持有特征的实体。2.根据权利要求1所述的数据处理方法,其特征在于,根据所述第一主体持有的交集秘密分片预测所述目标实体是否为所述第一主体和所述第二主体共同持有特征的实体,包括:获取根据明文数据训练得到的预测模型,所述预测模型用于预测所述明文数据是否为交集数据与所述明文数据是否归属于相同实体之间的映射关系;根据所述预测模型对所述第一主体持有的交集秘密分片进行映射处理,得到所述第一主体持有的实体秘密分片,所述实体秘密分片对应的明文用于指示所述目标实体是否为所述第一主体和所述第二主体共同持有特征的实体;根据所述第一主体持有的实体秘密分片确定所述目标实体是否为所述第一主体和所述第二主体共同持有特征的实体。3.根据权利要求2所述的数据处理方法,其特征在于,根据所述第一主体持有的实体秘密分片确定所述目标实体是否为所述第一主体和所述第二主体共同持有特征的实体,包括:分别从所述第一主体持有的实体秘密分片和所述第二主体持有的实体秘密分片中提取最高有效位;将两个所述最高有效位进行异或运算,得到所述实体秘密分片对应的符号位明文;根据所述符号位明文与零值的比较结果确定所述目标实体是否为所述第一主体和所述第二主体共同持有特征的实体。4.根据权利要求2所述的数据处理方法,其特征在于,在根据所述预测模型对所述第一主体持有的交集秘密分片进行映射处理之前,所述方法还包括:将所述第一主体持有的交集秘密分片由布尔分片转换为算数分片。5.根据权利要求2所述的数据处理方法,其特征在于,根据所述预测模型对所述第一主体持有的交集秘密分片进行映射处理,得到所述第一主体持有的实体秘密分片,包括:从所述预测模型中获取用于对输入数据做乘法运算的映射参数;将所述映射参数转换为用于表示所述输入数据的不同特征状态的状态权重,所述状态权重包括用于表示所述输入数据是交集数据的交集权重和用于表示所述输入数据不是交集数据的非交集权重;根据所述状态权重对所述第一主体持有的交集秘密分片进行加权运算,得到所述第一主体持有的实体秘密分片。6.根据权利要求5所述的数据处理方法,其特征在于,所述状态权重还包括用于表示所述输入数据为缺省值的缺省值权重;根据所述状态权重对所述第一主体持有的交集秘密分片进行加权运算,得到所述第一主体持有的实体秘密分片,包括:
根据所述交集权重和所述非交集权重对所述第一主体持有的交集秘密分片进行加权运算得到加权结果;根据所述交集权重和所述缺省值权重对所述加权结果进行修正,得到所述第一主体持有的实体秘密分片。7.根据权利要求1所述的数据处理方法,其特征在于,获取由第一主体持有的特征序列,包括:获取由第一主体持有的目标实体的多个原始特征;对至少两个所述原始特征进行拼接处理,得到所述目标实体的衍生特征;获取包括所述衍生特征的特征序列。8.根据权利要求7所述的数据处理方法,其特征在于,将至少两个所述原始特征进行拼接处理,得到所述目标实体的衍生特征,包括:对所述目标实体的多个原始特征进行分类处理,得到能够唯一标识所述目标实体的唯一标识特征,以及不能够唯一标识所述目标实体的非唯一标识特征;对至少两个所述非唯一标识特征进行拼接处理,得到所述目标实体的衍生特征。9.根据权利要求8所述的数据处理方法,其特征在于,获取包括所述衍生特征的特征序列,包括:将所述唯一标识特征和所述衍生特征组成所述目标实体的特征序列。10.根据权利要求1至9中任...

【专利技术属性】
技术研发人员:黄晨宇蒋杰刘煜宏陈鹏张凡程勇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1