一种隐私数据共享系统的匹配查询方法技术方案

技术编号:30514887 阅读:15 留言:0更新日期:2021-10-27 22:57
本发明专利技术是一种隐私数据共享系统的匹配查询方法,该方法基于区块链以及PSI、PIR的隐私数据共享系统;有匹配数据库记录的需求的用户进行匹配查询,包括:用户上传PSI计算需要的中间结果以及给数据提供方的奖励信息至区块链;所有数据提供方则根据用户的公开信息,以及自己的数据集,计算PSI的中间结果,并上传至区块链;用户获取具体查询匹配结果;用户根据设定规则通过区块链交易给各数据提供方发送奖励。本发明专利技术中,数据提供方能够在不泄露各自数据的情况下,共享数据库,并向用户提供隐私数据匹配和查询服务,以保护用户的隐私。也能够通过提供有参考价值的数据集匹配或查询服务获取相应的奖励。相应的奖励。相应的奖励。

【技术实现步骤摘要】
一种隐私数据共享系统的匹配查询方法


[0001]本专利技术涉及隐私数据共享系统的匹配查询方法领域,该隐私数据共享系统基于区块链以及PSI、PIR的隐私数据共享系统。

技术介绍

[0002]区块链基本上是一种在开放的不可信网络,在所有节点之间就单个数据值或单个状态达成一致的技术。
[0003]区块链的名字来源于其数据结构如图1所示:区块链上发布的数据具有公开可验证,且所有交易记录一旦达成共识就不可篡改等属性,当前主流的区块链有:Bitcoin,Ethereum,EOS,Cosmos等。
[0004]由于区块链的去中心化不可篡改性,因此可以用来发布一些公开但不能篡改的信息。
[0005]PSI是private set intersection的简称,两个或多个实体之间,每个实体都有一个隐私的数据集合,这些实体希望计算求得所有实体之间的共同交集,但又不希望泄露各自隐私集合的内容给对方。PSI就是实现这类需求的一项技术。
[0006]其中PSI又分为Unbalanced PSI和Balanced PSI,分别针对各实体之间的数据集合规模相差较大,和规模近似的情况。
[0007]PIR(Private Information Retrieval,隐私信息检索,)是一种保护用户查询隐私的技术,用户在向数据服务方提交数据查询请求获取数据,具体查询请求却不会向数据服务方泄露,即在过程中数据服务方不知道用户具体查询信息及检索出的数据项。此外,数据服务方一般也要求,用户只能获取自己所请求的数据项,数据服务方其他数据项则对用户不可见。
[0008]在现今的互联网时代,随着大数据,云计算,人工智能,区块链,物联网技术等飞速发展,无色无形的数据已成为这个社会最有价值的财产。拥有海量用户数据的互联网巨头企业可以轻松开展业务,并迅速占领市场。小公司为了生存,也竭尽可能地收集用户数据,以便不时之需。由于黑客攻击,内部数据权限管理不善等问题,公司敏感数据很容易泄露,甚至出现了数据黑市,大量企业、个人信息数据被买卖。如Facebook海量用户数据在未经用户授权地情况下,泄露给了剑桥分析公司,用于2016年时支持特朗普美国总统选举。Facebook因为此事件被罚款50亿美元巨额罚款。此外,谷歌同样因为未经允许私自收集用户数据,用于数据挖掘,在欧洲罚款5700万美金。
[0009]由于各国逐渐重视个人信息隐私,以及GDPR(《通用数据保护条例》(General Data Protection Regulation,简称GDPR)欧洲联盟的条例),CCPA,《中华人民共和国个人信息保护法》等法律法规的发布,各企业在收集使用数据的同时,同时也有了保护数据的义务,以及泄露时受到严重处罚的风险。因此越来越多的企业在发展业务时,也都花很大的精力将数据安全治理作为重点事项,从内部管理到技术手段。如苹果使用差分隐私统计用户的输入习惯,Google也使用差分隐私进行联邦学习,微软使用PSI做用户密码泄露检查。通过技
术手段,在保护用户隐私的同时,也能开展业务。
[0010]不仅是针对企业与用户之间希望在不泄露隐私情况的情况下开展业务,进行计算等。企业,机构之间也希望能够打破数据孤岛,在尽量不泄露自己敏感数据的同时,能够分享利用各自的数据,以更好的开展业务。传统的方式的是双方之间签署合作保密协议,规范各自数据保护的义务,但这只能防君子,不能防小人。更好的方式是通过技术方式进行隐私保护,以绝对安全的方式开展业务。
[0011]常用的数据共享进行隐私数据安全计算的技术有同态加密,多方安全计算,这两者都可以对加密数据进行计算,但各有优劣,一个是计算开销大,一个是通讯开销大。具体应用时,针对具体应用场景,往往结合各种加密技术,取长避短。如近期火热的联邦机器学习,企业或者机构之间通过共享数据,进行多方计算联合建模。联邦机器学习通过扩充数据,可以建立更好的预测模型,更好地开展业务,而联邦学习使用的加密技术则囊括了同态加密、不经意传输、PSI、安全多方计算、混淆电路等技术手段,通过融合这些技术在计算的每个阶段,用来保障做联合计算时敏感数据不会泄露给其他企业或机构。
[0012]目前,主要的隐私数据共享系统如下:
[0013]单纯的隐私查询系统技术,这类技术可以实现隐私查询,如微软基于PSI的密码泄露泄露,基于PIR的隐私信息查询系统。
[0014]通过的权限管理,法律法规约束的数据共享系统,这类方案从管理以及法律法规方面着手。如通过实行对数据严格权限管理,实现数据使用的最小权限原则;签署保密协议等法律法规手段。通过这些手段来防止敏感数据的泄露。
[0015]安全数据共享,多方计算技术手段,这类手段,通过加密,隐私计算等技术来弥补管理或法律法规的方式的不足。安全多方计算平台,如针对机器学习的有微众银行的开源计算Fate,百度的Paddle FL;通用的多方计算平台,如百度MesaTee,蚂蚁的摩斯。
[0016]单纯的隐私查询系统技术的缺点:数据源单一,无法进行数据共享,扩充可用数据。
[0017]通过的权限管理,法律法规约束的数据共享系统的缺点:但此类方法,在具体使用过程中,使用者依然可以接触到敏感数据,进而带来泄露的风险。
[0018]安全数据共享的缺点:这类手段,要么应用场景是比较复杂的机器学习等,不能作为通用的解决方案。要么使用通用的同态加密,通用安全多方计算框架,但往往通信计算开销较大并不实用。基于硬件的TEE虽然性能优势明显,但也存在部署困难以及测信道攻击等额外安全风险。
[0019]此外,此类技术手段也往往没有融合类似区块链的数据价值流通的技术手段。数据提供者不能得到有效奖励,计算任务不能公开防篡改。

技术实现思路

[0020]本专利技术针对目前隐私数据共享及匹配、查询系统的上述不足,提供一种隐私数据共享系统的匹配查询方法,该方法基于区块链以及PSI、PIR的隐私数据系统。
[0021]本专利技术为实现其技术目的所采用的技术方案是:一种隐私数据共享系统的匹配查询方法,该方法基于区块链以及PSI、PIR的隐私数据共享系统;有匹配数据库记录的需求的用户进行匹配查询,包括以下步骤:
[0022]S1、用户上传PSI计算需要的中间结果以及给数据提供方的奖励信息至区块链;
[0023]S2、所有数据提供方从区块链得到用户的具体请求,如果某个数据提供方有意提供数据匹配请求,则根据用户的公开信息,以及自己的数据集,计算PSI的中间结果,并上传至区块链;
[0024]S3、用户从区块链获取所有数据提供方针对其匹配请求的PSI的中间结果,并解密获取具体查询匹配结果;
[0025]S4、对于提供了匹配记录的数据提供方,用户根据设定规则通过区块链交易给各数据提供方发送奖励。
[0026]进一步的,上述的隐私数据共享系统的匹配查询方法中:还包括:
[0027]S5、用户还需要提供PSI匹配结果的零知识证明。
[0028]进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种隐私数据共享系统的匹配查询方法,该方法基于区块链以及PSI、PIR的隐私数据共享系统;其特征在于:有匹配数据库记录的需求的用户进行匹配查询,包括以下步骤:S1、用户上传PSI计算需要的中间结果以及给数据提供方的奖励信息至区块链;S2、所有数据提供方从区块链得到用户的具体请求,如果某个数据提供方有意提供数据匹配请求,则根据用户的公开信息,以及自己的数据集,计算PSI的中间结果,并上传至区块链;S3、用户从区块链获取所有数据提供方针对其匹配请求的PSI的中间结果,并解密获取具体查询匹配结果;S4、对于提供了匹配记录的数据提供方,用户根据设定规则通过区块链交易给各数据提供方发送奖励。2.根据权利要求1所述的隐私数据共享系统的匹配查询方法,其特征在于:还包括:S5、用户还需要提供PSI匹配结果的零知识证明。3.根据权利要求2所述的隐私数据共享系统的匹配查询方法,其特征在于:所述的零知识证明通过通用零知识算法计算或者自己设计PSI计算专用的零知识证明算法计算;所述的通用零知识算法包括ZkSnark、ZkStark。4.根据权利要求3所述的隐...

【专利技术属性】
技术研发人员:谈扬
申请(专利权)人:深圳前海新心数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1