当前位置: 首页 > 专利查询>张诚专利>正文

一种脱敏数据集的数据融合方法及装置制造方法及图纸

技术编号:16587736 阅读:81 留言:0更新日期:2017-11-18 15:24
本发明专利技术公开了一种脱敏数据集的数据融合方法及装置,涉及数据处理和分析技术领域。所述方法包括:对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;根据第二预融合结果对第一脱敏数据集计算第一联合概率相关值,根据第一预融合结果对第二脱敏数据集计算第二联合概率相关值;对第一联合概率相关值和第二联合概率相关值交叉融合得到第一交叉融合结果和第二交叉融合结果;根据第二预融合结果和第一交叉融合结果进行自融合得到第一脱敏数据集的融合数据记录,根据第一预融合结果和第二交叉融合结果进行自融合得到第二脱敏数据集的融合数据记录。本发明专利技术中的技术方案,实现了对不同脱敏数据集的数据融合。

Data fusion method and device for desensitization data set

The invention discloses a data fusion method and device for desensitization data set, which relates to the technical field of data processing and analysis. The method includes: respectively the first pre pre fusion and get the corresponding results and second pre fusion fusion for the first data set and second desensitization desensitization data set; according to the second pre fusion results of the first data set to calculate the first desensitization joint probability values, according to the first pre fusion results of second data sets of second joint probability calculation of desensitization related the value of the first joint probability correlation value; and second joint probability correlation cross fusion first cross fusion results of second cross integration; according to the second pre fusion results and first cross fusion results were obtained from the fusion data recording fusion data set according to the first desensitization, the first pre fusion results and second cross fusion results of self fusion get the data record second sets of data fusion desensitization. The technical scheme of the invention realizes data fusion for different desensitization data sets.

【技术实现步骤摘要】
一种脱敏数据集的数据融合方法及装置
本专利技术涉及数据处理和分析
,尤其涉及一种脱敏数据集的数据融合方法及装置。
技术介绍
对于多数商业实体来说,合理的对消费者的个体识别信息(例如身份证号、手机号、真实姓名和住所等)进行分析和融合,能够更有效的预测消费者的偏好,进而为消费者提供增值服务;而出于法律、隐私保护、商业利益等多方面的因素,要求商业实体需要对其收集到的消费者的个体识别信息加密或者脱敏后才能在外部环境中使用,该脱敏后的消费者的个体识别信息我们称之为“脱敏数据集”,即要求商业实体需要对“脱敏数据集”进行分析和融合;然而,现有技术中,对数据集的融合都是基于非脱敏数据集进行的,并且存在较大的泄露个人隐私的风险。例如,当同一公司内部或者两家公司采用不同加密、匿名或虚拟编码方法对各自消费者个人识别信息进行处理后,公司的消费者个人数据将因为缺少一致的唯一识别信息而无法融合和分析。实际需求场合包括但不限于以下:1.同一家实体消费场所(如大卖场、超市)拥有用户在场所内的匿名消费数据(通常以小票形式保留),需要准确找出重复消费者,为其提供更好的服务;2.两家互联网公司需要合法地进行网络消费者个体数据交换,从而更好地预测消费者偏好和行为,为消费者提供增值服务;3.城市商圈里两个商场和商铺需要合法地交换顾客的购买信息,从而更好了解顾客需求,提供推荐和增值服务。如果能解决以上脱敏数据集的融合处理问题,对隐私保护、商业应用创新和数据交易具有非常重大的现实意义。而对于两套脱敏数据集的融合,现有技术中一直没有有效的技术手段。到目前为止,实际操作中的数据融合工作,只能基于非脱敏数据集进行,或配合一定商业途径完成:1.企业通过并购,将另一家企业的数据变为企业内部数据,然后基于用户识别信息的匹配进行融合。这种方式的商业代价很大,可操作性较差。2.两家企业间直接借助各自拥有的消费者个体有效识别信息作为主键,实现非脱敏数据的直接融合。这种方式存在较大的泄露个人隐私的技术风险和法律风险。3.两家企业分别将自己拥有的包含消费者个体有效识别信息的个人数据交由第三方代理商,由第三方代理商完成非脱敏数据的融合,然后将合并后的数据分别返还给各自企业。这种方法使得企业和第三方平台都存在较大的泄漏个人隐私的技术风险和法律风险。总的来说,已有方法只能基于非脱敏数据集进行融合,现有技术中没有针对脱敏数据集的融合技术,如何有效的对脱敏数据集进行融合,以便于为消费者提供增值服务,对于很多商业实体来说是急需解决的问题。
技术实现思路
本专利技术的目的是通过以下技术方案实现的。一方面,本专利技术提供了一种脱敏数据集的数据融合方法,包括:步骤S1:对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;步骤S2:根据所述第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据所述第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值;步骤S3:结合所述第一预融合结果和所述第二预融合结果,对所述第一联合概率相关值和所述第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果;步骤S4:根据所述第二预融合结果和所述第一交叉融合结果进行自融合得到所述第一脱敏数据集的融合数据记录,根据所述第一预融合结果和所述第二交叉融合结果进行自融合得到所述第二脱敏数据集的融合数据记录。可选地,所述第一脱敏数据集的特有变量是a,所述第二脱敏数据集的特有变量是b,所述步骤S1具体包括:计算所述第一脱敏数据集的特征值:其中,0≤ta≤1;构建所述第一脱敏数据集的数据分布模型Pa(X),包括:在所述第一脱敏数据集中,以X为自变量、a为因变量,选用合适的预测模型,通过机器学习训练出0≤Pa(X)≤1,并得到对于给定的共有变量集X的值x,P(a=1|x)=Pa(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;计算所述第二脱敏数据集的特征值:其中,0≤tb≤1;构建所述第二脱敏数据集的数据分布模型Pb(X),包括:在所述第二脱敏数据集中,以X为自变量、b为因变量,选用合适的预测模型,通过机器学习训练出0≤Pb(X)≤1,并得到对于给定的共有变量集X的值x,P(b=1|x)=Pb(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;将所述第一脱敏数据集的特征值ta、所述第一脱敏数据集的数据分布模型Pa(X)、所述第一脱敏数据集中数据记录的数量Na作为第一预融合结果;将所述第二脱敏数据集的特征值tb、所述第二脱敏数据集的数据分布模型Pb(X)、所述第二脱敏数据集中数据记录的数量Nb作为第二预融合结果。可选地,所述步骤S2,具体包括:根据所述第二预融合结果中含有的第二脱敏数据集的数据分布模型Pb(X),对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值:根据所述第一预融合结果中含有的第一脱敏数据集的数据分布模型Pa(X),对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值:可选地,所述步骤S3,具体包括:根据所述第一联合概率相关值、所述第二联合概率相关值、所述第一预融合结果中含有的第一脱敏数据集中数据记录的数量Na、所述第二预融合结果中含有的第二脱敏数据集中数据记录的数量Nb计算联合分布概率:根据所述联合分布概率、所述第一预融合结果中含有的第一脱敏数据集的特征值ta、所述第二预融合结果中含有的第二脱敏数据集的特征值tb计算条件概率:将所述条件概率β11和β10作为第一交叉融合结果;将所述条件概率α11和α10作为第二交叉融合结果。可选地,所述步骤S4,具体包括:根据所述第二预融合结果中含有的第二脱敏数据集的特征值tb得到阈值函数fb(x):根据所述第一交叉融合结果中含有的条件概率β11和β10,及所述阈值函数fb(x),回归所述第一脱敏数据集中任意一条融合数据记录的值:其中,i=1,2,…,Na;根据所述第一预融合结果中含有的第一脱敏数据集的特征值ta得到阈值函数fa(x):根据所述第二交叉融合结果中含有的条件概率α11和α10,及所述阈值函数fa(x),回归所述第二脱敏数据集的任意一条融合数据记录的值:其中,j=1,2,…,Nb。另一方面,本专利技术提供一种脱敏数据集的数据融合装置,包括:预融合模块,用于对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;融合预测模块,用于根据所述预融合模块得到的第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据所述预融合模块得到的第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值;交叉融合模块,用于结合所述预融合模块得到的第一预融合结果和第二预融合结果,对所述融合预测模块得到的第一联合概率相关值和第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果;自融合模块,用于根据所述预融合模块得到的第二预融合结果和所述交叉融合模块得到的第一交叉融合结果进行自融合得到所述第一脱敏数据集的融合数据记录,根据所述预融合模块得到的第一预融合结果和所述交叉融合模块得到的第二交叉融合结果进行自融合得到所述第二脱敏数据集的融合数据记录本文档来自技高网
...
一种脱敏数据集的数据融合方法及装置

【技术保护点】
一种脱敏数据集的数据融合方法,其特征在于,包括:步骤S1:对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;步骤S2:根据所述第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据所述第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值;步骤S3:结合所述第一预融合结果和所述第二预融合结果,对所述第一联合概率相关值和所述第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果;步骤S4:根据所述第二预融合结果和所述第一交叉融合结果进行自融合得到所述第一脱敏数据集的融合数据记录,根据所述第一预融合结果和所述第二交叉融合结果进行自融合得到所述第二脱敏数据集的融合数据记录。

【技术特征摘要】
1.一种脱敏数据集的数据融合方法,其特征在于,包括:步骤S1:对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;步骤S2:根据所述第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据所述第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值;步骤S3:结合所述第一预融合结果和所述第二预融合结果,对所述第一联合概率相关值和所述第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果;步骤S4:根据所述第二预融合结果和所述第一交叉融合结果进行自融合得到所述第一脱敏数据集的融合数据记录,根据所述第一预融合结果和所述第二交叉融合结果进行自融合得到所述第二脱敏数据集的融合数据记录。2.根据权利要求1所述的方法,其特征在于,所述第一脱敏数据集的特有变量是a,所述第二脱敏数据集的特有变量是b,所述步骤S1具体包括:计算所述第一脱敏数据集的特征值:其中,0≤ta≤1;构建所述第一脱敏数据集的数据分布模型Pa(X),包括:在所述第一脱敏数据集中,以X为自变量、a为因变量,选用合适的预测模型,通过机器学习训练出0≤Pa(X)≤1,并得到对于给定的共有变量集X的值x,P(a=1|x)=Pa(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;计算所述第二脱敏数据集的特征值:其中,0≤tb≤1;构建所述第二脱敏数据集的数据分布模型Pb(X),包括:在所述第二脱敏数据集中,以X为自变量、b为因变量,选用合适的预测模型,通过机器学习训练出0≤Pb(X)≤1,并得到对于给定的共有变量集X的值x,P(b=1|x)=Pb(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;将所述第一脱敏数据集的特征值ta、所述第一脱敏数据集的数据分布模型Pa(X)、所述第一脱敏数据集中数据记录的数量Na作为第一预融合结果;将所述第二脱敏数据集的特征值tb、所述第二脱敏数据集的数据分布模型Pb(X)、所述第二脱敏数据集中数据记录的数量Nb作为第二预融合结果。3.根据权利要求2所述的方法,其特征在于,所述步骤S2,具体包括:根据所述第二预融合结果中含有的第二脱敏数据集的数据分布模型Pb(X),对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值:1根据所述第一预融合结果中含有的第一脱敏数据集的数据分布模型Pa(X),对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值:4.根据权利要求3所述的方法,其特征在于,所述步骤S3,具体包括:根据所述第一联合概率相关值、所述第二联合概率相关值、所述第一预融合结果中含有的第一脱敏数据集中数据记录的数量Na、所述第二预融合结果中含有的第二脱敏数据集中数据记录的数量Nb计算联合分布概率:根据所述联合分布概率、所述第一预融合结果中含有的第一脱敏数据集的特征值ta、所述第二预融合结果中含有的第二脱敏数据集的特征值tb计算条件概率:将所述条件概率β11和β10作为第一交叉融合结果;将所述条件概率α11和α10作为第二交叉融合结果。5.根据权利要求4所述的方法,其特征在于,所述步骤S4,具体包括:根据所述第二预融合结果中含有的第二脱敏数据集的特征值tb得到阈值函数fb(x):根据所述第一交叉融合结果中含有的条件概率β11和β10,及所述阈值函数fb(x),回归所述第一脱敏数据集中任意一条融合数据记录的值:其中,i=1,2,…,Na;根据所述第一预融合结果中含有的第一脱敏数据集的特征值ta得到阈值函数fa(x):根据所述第二交叉融合结果中含有的条件概率α11和α10,及所述阈值函数fa(x),回归所述第二脱敏数据集的任意一条融合数据记录的值:其中,j=1,2,…,Nb。6.一种脱敏数据集的数据融合装置,其特征在于,包括:预融合模块,用于对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;融合预测模块,用于根据所述预融合模块得到的第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据所述预融合模块得到的第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值;交叉融合模块,用于结合所述预融合模块得到的第一预融合结果和第...

【专利技术属性】
技术研发人员:张诚易岚陈宇新
申请(专利权)人:张诚易岚陈宇新
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1