样本ID对齐方法、装置、设备及存储介质制造方法及图纸

技术编号:24517596 阅读:81 留言:0更新日期:2020-06-17 06:47
本发明专利技术涉及金融科技领域,本发明专利技术公开了一种样本ID对齐方法、装置、设备及存储介质,所述样本ID对齐方法包括:获取客数据源的第一用户ID,并分别获取多个主数据源的第二用户ID;根据所述客数据源分别对各主数据源进行样本匹配处理,以获取所述第一用户ID分别与各第二用户ID之间的双方共同用户ID;根据所述客数据源和所述各主数据源,对各双方共同用户ID进行样本匹配处理,以获取多方共同用户ID。本发明专利技术解决现有联邦学习过程中多方数据源进行样本ID对齐处理的样本ID对齐效率低下的技术问题。

Sample ID alignment method, device, device and storage medium

【技术实现步骤摘要】
样本ID对齐方法、装置、设备及存储介质
本专利技术涉及金融科技
,尤其涉及一种样本ID对齐方法、装置、设备及存储介质。
技术介绍
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融工业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。目前,在纵向联邦学习中,为多维度地刻画同一个用户ID(Identitydocument,是身份证标识号、账号、唯一编码、专属号码、工业设计、国家简称、法律词汇、通用账户、译码器、软件公司等各类专有词汇的缩写),需要通过样本ID对齐,得到多个数据源中的共同用户ID,并且避免每个数据源中非共同用户ID的数据被其他数据源获取。而样本ID对齐的过程中,数据源一次只能对一个数据源进行样本ID对齐。这样,在数据源的数量非常大的情况下,数据源一对一的样本ID对齐方式无法满足数据快速对齐的匹配需求,并且样本ID对齐过程会消耗大量时间,使得样本ID对齐流程繁琐冗余,导致数据源的样本ID对齐效率低下。
技术实现思路
本专利技术的主要目的在于提供一种样本ID对齐方法、装置、设备及存储介质,旨在解决现有联邦学习过程中多方数据源进行样本ID对齐处理的样本ID对齐效率低下的技术问题。为实现上述目的,本专利技术提供一种样本ID对齐方法,所述样本ID对齐方法包括:获取客数据源的第一用户ID,并分别获取多个主数据源的第二用户ID;根据所述客数据源分别对各主数据源进行样本匹配处理,以获取所述第一用户ID分别与各第二用户ID之间的双方共同用户ID;根据所述客数据源和所述各主数据源,对各双方共同用户ID进行样本匹配处理,以获取多方共同用户ID。可选地,所述根据客数据源分别对各主数据源进行样本匹配处理,以获取第一用户ID分别与各第二用户ID之间的双方共同用户ID的步骤包括:根据所述客数据源生成RSA公钥和RSA私钥,根据所述RSA公钥分别对各主数据源的第二用户ID进行RSA加密,以获取各主数据源的第二用户ID加密串;根据所述RSA私钥和各主数据源的第二用户ID加密串,生成所述各主数据源的第二用户ID串,并根据所述各主数据源的第二用户ID串,生成所述各主数据源的用户ID加密串;根据RSA私钥对所述客数据源的第一用户ID进行RSA加密,以获取所述客数据源的第一用户ID加密串;根据所述第一用户ID加密串和用户ID加密串,分别获取所述客数据源和所述各主数据源之间的双方共同用户ID。可选地,所述根据所述客数据源生成RSA公钥和RSA私钥,根据所述RSA公钥分别对各主数据源的第二用户ID进行RSA加密,以获取各主数据源的第二用户ID加密串的步骤包括:分别统计各主数据源中第二用户ID的用户ID数,并根据RSA公钥分别与各主数据源的用户ID数生成各主数据源的随机数;根据各主数据源的随机数、RSA公钥和第二用户ID,生成各主数据源的第二用户ID加密串。可选地,所述根据所述第一用户ID加密串和用户ID加密串,分别获取所述客数据源和所述各主数据源之间的双方共同用户ID的步骤包括:获取第一用户ID与第一用户ID加密串的第一映射关系,并获取第二用户ID与第二用户ID加密串的第二映射关系;根据所述第一映射关系和所述第二映射关系,确定客数据源与各主数据源中的双方共同用户ID。可选地,所述根据所述客数据源分别对各主数据源进行样本匹配处理的步骤之前还包括:获取当前的闲置资源值,并根据所述客数据源和各主数据源计算资源占用预估值;若所述资源占用预估值大于所述闲置资源值,则将所述多个主数据源划分为预设个数的主数据源集合;所述根据所述客数据源分别对各主数据源进行样本匹配处理的步骤包括:根据所述客数据源分别对各主数据源集合对应的各主数据源进行样本匹配处理。可选地,所述根据所述客数据源和各主数据源计算资源占用预估值的步骤之后还包括:若所述资源占用预估值小于或等于所述闲置资源值,则输出运算资源不足的预警信息。可选地,所述根据所述客数据源分别对各主数据源进行样本匹配处理的步骤包括:若所述各主数据源中存在与客数据源之间无双方共同用户ID的目标主数据源,则将所述目标主数据源忽略。本专利技术还提供一种样本ID对齐装置,所述样本ID对齐装置包括:获取模块,用于获取客数据源的第一用户ID,并分别获取多个主数据源的第二用户ID;第一处理模块,用于根据所述客数据源分别对各主数据源进行样本匹配处理,以获取所述第一用户ID分别与各第二用户ID之间的双方共同用户ID;第二处理模块,用于根据所述客数据源和所述各主数据源,对各双方共同用户ID进行样本匹配处理,以获取多方共同用户ID。可选地,所述第一处理模块包括:第一加密单元,用于根据所述客数据源生成RSA公钥和RSA私钥,根据所述RSA公钥分别对各主数据源的第二用户ID进行RSA加密,以获取各主数据源的第二用户ID加密串;生成单元,用于根据所述RSA私钥和各主数据源的第二用户ID加密串,生成所述各主数据源的第二用户ID串,并根据所述各主数据源的第二用户ID串,生成所述各主数据源的用户ID加密串;第二加密单元,用于根据RSA私钥对所述客数据源的第一用户ID进行RSA加密,以获取所述客数据源的第一用户ID加密串;双方共同用户单元,用于根据所述第一用户ID加密串和用户ID加密串,分别获取所述客数据源和所述各主数据源之间的双方共同用户ID。可选地,所述第一加密单元还用于:分别统计各主数据源中第二用户ID的用户ID数,并根据RSA公钥分别与各主数据源的用户ID数生成各主数据源的随机数;根据各主数据源的随机数、RSA公钥和第二用户ID,生成各主数据源的第二用户ID加密串。可选地,所述双方共同用户单元还用于:获取第一用户ID与第一用户ID加密串的第一映射关系,并获取第二用户ID与第二用户ID加密串的第二映射关系;根据所述第一映射关系和所述第二映射关系,确定客数据源与各主数据源中的双方共同用户ID。可选地,所述样本ID对齐装置还包括:资源预估模块,用于获取当前的闲置资源值,并根据所述客数据源和各主数据源计算资源占用预估值;划分模块,用于若所述资源占用预估值大于所述闲置资源值,则将所述多个主数据源划分为预设个数的主数据源集合;所述第一处理模块还用于:根据所述客数据源分别对各主数据源集合对应的各主数据源进行样本匹配处理。可选地,所述样本ID对齐装置还包括:输出模块,用于若所述资源占用预估值小于或等于所述闲置资源值,则输出运算资源不足的预警信息。可选地,所述第一处理模块还用于:若所述各主数据源中存在与客数据源之间无双方共同用户ID的目标主数据源,则将所述目标主数据源忽略。此外,为实本文档来自技高网...

【技术保护点】
1.一种样本ID对齐方法,其特征在于,所述样本ID对齐方法包括:/n获取客数据源的第一用户ID,并分别获取多个主数据源的第二用户ID;/n根据所述客数据源分别对各主数据源进行样本匹配处理,以获取所述第一用户ID分别与各第二用户ID之间的双方共同用户ID;/n根据所述客数据源和所述各主数据源,对各双方共同用户ID进行样本匹配处理,以获取多方共同用户ID。/n

【技术特征摘要】
1.一种样本ID对齐方法,其特征在于,所述样本ID对齐方法包括:
获取客数据源的第一用户ID,并分别获取多个主数据源的第二用户ID;
根据所述客数据源分别对各主数据源进行样本匹配处理,以获取所述第一用户ID分别与各第二用户ID之间的双方共同用户ID;
根据所述客数据源和所述各主数据源,对各双方共同用户ID进行样本匹配处理,以获取多方共同用户ID。


2.如权利要求1所述的样本ID对齐方法,其特征在于,所述根据客数据源分别对各主数据源进行样本匹配处理,以获取第一用户ID分别与各第二用户ID之间的双方共同用户ID的步骤包括:
根据所述客数据源生成RSA公钥和RSA私钥,根据所述RSA公钥分别对各主数据源的第二用户ID进行RSA加密,以获取各主数据源的第二用户ID加密串;
根据所述RSA私钥和各主数据源的第二用户ID加密串,生成所述各主数据源的第二用户ID串,并根据所述各主数据源的第二用户ID串,生成所述各主数据源的用户ID加密串;
根据RSA私钥对所述客数据源的第一用户ID进行RSA加密,以获取所述客数据源的第一用户ID加密串;
根据所述第一用户ID加密串和用户ID加密串,分别获取所述客数据源和所述各主数据源之间的双方共同用户ID。


3.如权利要求2所述的样本ID对齐方法,其特征在于,所述根据所述客数据源生成RSA公钥和RSA私钥,根据所述RSA公钥分别对各主数据源的第二用户ID进行RSA加密,以获取各主数据源的第二用户ID加密串的步骤包括:
分别统计各主数据源中第二用户ID的用户ID数,并根据RSA公钥分别与各主数据源的用户ID数生成各主数据源的随机数;
根据各主数据源的随机数、RSA公钥和第二用户ID,生成各主数据源的第二用户ID加密串。


4.如权利要求2所述的样本ID对齐方法,其特征在于,所述根据所述第一用户ID加密串和用户ID加密串,分别获取所述客数据源和所述各主数据源之间的双方共同用户ID的步骤包括:
获取第一用户ID与第一用户ID加密串的第一映射关系,并获取第二用户ID与第二用户ID加密串的第二映射关系;
根据所述第一映...

【专利技术属性】
技术研发人员:郑会钿范涛马国强陈天健杨强
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1