一种基于隐私保护的多源数据融合方法技术

技术编号:39006192 阅读:10 留言:0更新日期:2023-10-07 10:37
一种基于隐私保护的多源数据融合方法包括:各数据持有者对己方数据进行数据预处理,所述数据包括实体和实体数据;各数据持有者对预处理后的己方实体进行分类;各数据持有者对分类后的己方实体数据进行降维处理;数据请求方将降维后需融合的加密实体数据发至各参与方;各参与方计算所述加密实体数据与己方数据的距离,若所述计算结果满足阈值要求,则向数据请求方返回己方同一实体数据,数据请求方解密各参与方返回的所述同一实体数据并进行数据融合;否则,返回为空。本发明专利技术采用同态加密算法,对实体数据进行加密后,通过实体分类进行数据匹配,匹配成功则进行数据融合,在密态下进行数据融合,保护各参与方的持有数据的隐私安全。安全。安全。

【技术实现步骤摘要】
一种基于隐私保护的多源数据融合方法


[0001]本专利技术涉及信息安全
,具体涉及一种基于隐私保护的多源数据融合方法。

技术介绍

[0002]信息爆炸时代,大量的数据被创造、收集和处理,我们可以从数据中获取有价值的信息来寻找世界的规则并理解事物的本质。然而,大量数据也给数据驱动的应用带来困难和挑战,传统的数据处理技术很难满足大数据时代的需求。目前数据处理技术包括数据预处理、数据存储、数据传输、数据融合、数据分析、信息检索等。其中数据融合是一种从不确定、不精确、不一致、冲突和类似的原始数据中得到更加一致、更有信息量、更准确信息的技术。当前数据融合已应用于多个领域,包括无线传感器网络、雷达系统、物体跟踪、目标检测和识别、入侵检测等。
[0003]但目前数据融合通常是在数据为明文时进行,若数据来自多个数据源,各数据源将面临数据隐私无法得到保护的风险,数据融合将会使参与方的所有数据信息泄露而无论该数据是否能够融合成功。因此,亟需提出一种在保护数据隐私的前提下完成数据融合的方法。

技术实现思路

[0004]针对上述问题,本专利技术提供了一种基于隐私保护的多源数据融合方法,以达到数据融合时对隐私数据进行保护的目的。
[0005]一种基于隐私保护的多源数据融合方法,该方法包括以下步骤:
[0006]步骤1:各数据持有者对己方数据进行数据预处理,所述数据包括实体和实体数据,各数据持有方持有的数据以实体为单位;
[0007]步骤2:各数据持有者对预处理后的己方实体数据进行分类
[0008]步骤3:各数据持有者对分类后的己方实体数据进行降维处理,降维处理将原始实体数据转换到便于计算处理的特征空间当中,用于计算实体间的距离,即相似度,一般的,可根据本方法的具体使用场景采用相应的降维处理算法,但任何降维处理算法的结果都适用于本方法;
[0009]步骤4:数据请求方将降维后需融合的加密实体数据发至各参与方;
[0010]步骤5:各参与方计算所述加密实体数据与己方数据的距离,即相似度,一般的,当降维处理算法为哈希算法时,则所述距离为哈希距离;当降维处理算法为L2正则时,则所述距离为欧氏距离;若所述计算结果满足阈值要求,则向数据请求方返回己方同一实体数据,数据请求方解密各参与方返回的所述同一实体数据并进行数据融合;所述数据融合为对表示同一事物的实体进行数据融合,扩充该实体的表达范围;否则,返回为空,阈值目标本方法不做具体说明,本领域技术人员可根据使用场景、降维处理算法等制定具体阈值,但均适用于本方法。
[0011]优选的,所述实体为每一类数据对象的个体,实体数据为实体对应的数据。
[0012]优选的,所述实体通过数据类别、属性进行表达,职工的描述中,职工是实体,而姓名、年龄和民族等是职工的属性。
[0013]优选的,同一实体有多种表达。
[0014]优选的,所述数据预处理的方法包括数据格式统一化、语法匹配、数据正规化。
[0015]优选的,所述对实体数据进行分类为对实体数据按照类别分组,提高计算效率;同一名词在不同类别中代表不同实体,如吉林在省的分类里和在市的分类里不属于同一个实体。
[0016]优选的,所述加密实体数据的方法为同态加密:数据请求方生成公私钥对,通过公钥加密实体数据并将加密后的数据连同公钥一起发送至其他参与方,各参与方收到公钥和加密实体数据后,对己方实体数据通过所述公钥加密后计算与数据请求方加密实体数据的相似度,并根据计算结果,将符合要求的密态实体数据返回给数据请求方。
[0017]优选的,所述各参与方为参与当前数据融合的数据持有方。
[0018]本专利技术提供的一种基于隐私保护的多源数据融合方法,采用同态加密算法,对实体数据进行加密后,通过实体分类进行数据匹配,匹配成功则进行数据融合,在密态下进行数据融合,保护各参与方的持有数据的隐私安全。
附图说明:
[0019]附图1是本专利技术实施例中一种基于隐私保护的多源数据融合方法的流程图。附图2是本专利技术实施例中数据融合过程的示意图。
具体实施方式:
[0020]为了使本专利技术技术方案更容易理解,现用具体实施例的方式,对本专利技术设计的一种基于隐私保护的多源数据融合方法进行清晰、完整的描述。
[0021]以下结合说明书附图1对本专利技术提供的一种基于隐私保护的多源数据融合方法进行说明,所述方法具体包括以下步骤:
[0022]步骤100:各数据持有者对己方数据进行数据格式统一化、语法匹配、数据正规化等数据预处理,所述数据包括实体和实体数据,各数据持有方持有的数据以实体为单位;各数据持有方持有的数据可以是结构化、非结构化、半结构化的,各数据持有方持有的数据之间可以是同构、异构、多模态的,各数据持有方持有的数据量大小可以是相同的、不相同的;数据持有方之一,是一次数据融合的发起方和融合结果的获取方,所述实体为每一类数据对象的个体,实体数据为实体对应的数据;所述实体通过数据类别、属性进行表达,职工的描述中,职工是实体,而姓名、年龄和民族等是职工的属性,同一实体有多种表达。
[0023]步骤110:各数据持有者对预处理后的己方实体数据进行分类,所述对实体数据进行分类为对实体数据按照类别分组,提高计算效率;同一名词在不同类别中代表不同实体,如吉林在省的分类里和在市的分类里不属于同一个实体。
[0024]步骤120:各数据持有者对分类后的己方实体数据进行降维处理,降维处理将原始实体数据转换到便于计算处理的特征空间当中,用于计算实体间的距离,即相似度,一般的,可根据本方法的具体使用场景采用相应的降维处理算法,但任何降维处理算法的结果
都适用于本方法。
[0025]步骤130:数据请求方基于同态加密生成公私钥对,采用公钥加密请求融合的降维实体数据,将加密实体数据和所述公钥发至各参与方,所述各参与方为参与当前数据融合的数据持有方。
[0026]步骤140:各参与方收到公钥和加密实体数据后,利用所述公钥加密己方数据,计算所述加密实体数据与己方数据的距离,即相似度,一般的,当降维处理算法为哈希算法时,则所述距离为哈希距离;当降维处理算法为L2正则时,则所述距离为欧氏距离;若所述计算结果满足阈值要求,则向数据请求方返回己方同一实体数据,数据请求方解密各参与方返回的所述同一实体数据并进行数据融合;所述数据融合为对表示同一事物的实体进行数据融合,扩充该实体的表达范围;否则,返回为空,阈值目标本方法不做具体说明,本领域技术人员可根据使用场景、降维处理算法等制定具体阈值,但均适用于本方法。
[0027]上述步骤可重复执行直至数据请求方所需融合实体都融合完毕。
[0028]以下举例说明数据融合的结果:
[0029]数据请求方A拥有实体“学生”和这一实体的姓名、班级、年龄数据,数据持有方B有“学生”这一实体的性别、成绩数据,数据持有方C有“学生”这一实体的学号、入学时间数据,数据请求方A向数据持有方B和数据持有方C请求发起融本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于隐私保护的多源数据融合方法,其特征在于,所述方法包括:步骤1:各数据持有者对己方数据进行数据预处理,所述数据包括实体和实体数据;步骤2:各数据持有者对预处理后的己方实体进行分类;步骤3:各数据持有者对分类后的己方实体数据进行降维处理;步骤4:数据请求方将降维后需融合的加密实体数据发至各参与方;步骤5:各参与方计算所述加密实体数据与己方数据的距离,若所述计算结果满足阈值要求,则向数据请求方返回己方同一实体数据,数据请求方解密各参与方返回的所述同一实体数据并进行数据融合;否则,返回为空。2.如权利要求1所述的一种基于隐私保护的多源数据融合方法,其特征在于,所述实体为每一类数据对象的个体,实体数据为实体对应的数据。3.如权利要求2所述的一...

【专利技术属性】
技术研发人员:张连新罗晨晨王成伟
申请(专利权)人:方盈金泰科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1