收集与分析数据的方法与相关的装置制造方法及图纸

技术编号:22075182 阅读:78 留言:0更新日期:2019-09-12 13:58
本发明专利技术公开了一种收集与分析数据的方法,所述方法包括对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串;及对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串,其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。因此,相较于现有技术,本发明专利技术可以用于保护数据的隐私以及提昇数据分析上的可利用率。

Methods for collecting and analyzing data and related devices

【技术实现步骤摘要】
收集与分析数据的方法与相关的装置
本专利技术是涉及于一种收集与分析数据的方法与相关的装置,尤其涉及一种可利用一第一噪声产生步骤与一第二噪声产生步骤来对一原始数据串中的识别信息去识别化的方法与相关的装置。
技术介绍
在当代社会里,数据的利用对个人用户或是机构都相当的重要,然而,两者对数据获取途径的立场并不相同。公司或者学术团体等机构希望收集用户的数据以获取有用的信息,借以提昇服务的针对性或制定发展战略。相对的,所述个人用户会将他们的数据分享给感兴趣的第三方机构以获取多种不同的潜在利益,但更希望能确保他们的隐私,例如应用程序的使用纪录、定位记录或浏览器的历史记录不被泄漏。因此,如何最大化所述个人用户的服务使用经验以及最小化所述个人用户隐私的泄漏是人们需面对的一项困境。在现有技术中,随机响应(RandomizedResponse)机制(详见于参考文件[17])的使用引起了学术界相当的兴趣,且可以用于解决上述的困境。所述随机响应机制的概念,是在将数据分享给任何信任数据经手人之前,于用户端先对所述数据产生噪声。与需要仰赖可信任的第三方机构或者需要对数据的使用范围作限制的技术如集中式差分隐私(CentralizedDifferentialPrivacy)(详见于参考文件[6][7])或加密式的隐私保护(Encryption-BasedPrivacy-Preserving)(详见于参考文件[8][10])相对比,所述随机响应机制可以在用户端差分隐私(LocalDifferentialPrivacy)的定义下与拥有较广泛的数据的使用范围下提供严密的隐私保证。特别来说,所述随机响应机制可同时满足所述差分隐私的定义且提供严密的隐私保证,也就是说,无论隐私攻击者的背景知识与技术为何,所述个人用户具有“合理的否认(plausibledeniability)”以使所述个人用户中具有高度机密的敏感信息不受所述隐私攻击者侵犯,也就是说所述随机响应机制可对所述个人用户与所述具有高度机密的敏感信息之间的连结去识别化,导致所述隐私攻击者无法侵犯所述具有高度机密的敏感信息。所述随机响应机制最初是由Warner在1965年提出以作为收集敏感性问题的调查方法(详见于参考文件[17])。在超过40年之后,Dowrketal.提出了稳固且数学性质严谨的定义以定义「隐私」,同时提出了所述差分隐私的概念(详见于参考文件[6])。而Kasiviswanathanetal.则提出了用于隐私学习的用户端模型(详见于参考文件[16]),并首先将所述随机响应机制与所述差分隐私连结在一起。之後,Chanetal.证明了所述随机响应机制的问题复杂度在所述用户端模型下具有一最佳下界(optimallowerbound,详见于参考文件[18]),称为用户端差分隐私。近年来,因为所述用户端模型中并不需要信任数据经手人(trusteddatacurator,详见于参考文件[15]),所以所述用户端模型的應用逐渐受到关注。另外,在实际的应用中,人们想要知道的是所有的物件中出现频率最高的物件,辨识出现频率最高的物件的问题被称为「重击手问题(heavy-hittersproblem)」。因此,Erlingssonetal.提出了随机可聚合隐私保护序数响应机制(randomizedaggregatableprivacy-preservingordinalresponse,RAPPOR)(详见于参考文件[21]),其中RAPPOR在执行双层架构的随机响应机制后,可利用一布伦过滤器(Bloomfilter,详见于参考文件[21])来表示真實用户端数据串并输出一模糊版本的真實用户端数据串。RAPPOR的一大贡献在于其具有用于學習統計的敏銳解码架构,其中,所述解码架构不仅可以帮助辨识出所述数据中的「重击手」,也可以用于重建對象的一频率分布。自从RAPPOR提出以来,许多关于隐私学习的研究都是在所述用户端模型下进行。例如Fantietal.提出了关于RAPPOR的一扩充版本(详见于参考文件[11]),其中,所述扩充版本包含新版的解码架构,以解决RAPPOR的两个问题:(1)RAPPOR所聚合的数据只能用于決定一边际频率分布(marginaldistribution),并无法決定一联合频率分布(jointdistribution);(2)RAPPOR所聚合的所述数据只能在参照一精确的数据解码字典(precisedatadictionary)下有效的解码。然而,所述扩充版本为了解决上述RAPPOR两个问题,牺牲了精確重建数据的能力。在解码后,RAPPOR所聚合的数据只能观察到部份具有较高出现频率的用戶端数据串。Qinetal.(详见于参考文件[23])则设计了另一具有双层架构的用户端差分隐私挖掘机制(LocalDifferentialPrivacyMiner,LDPMiner),LDPMiner利用了一隐私预算值ε(详见于参考文件[6])以产生可能包含数据中的「重击手」的一候选集合,以及利用所述数据中在所述候选集合以外的其余数据来精准化所述候选集合。LDPMiner着重于在集值数据(set-valueddata)中,而不是在分类数据(categoricaldata)中,辨识所述数据中的「重击手」。借此,LDPMiner进一步扩展了RAPPOR的应用方式。Wangetal.(详见于参考文件[20])则设计了最佳化的用户端差分隐私协定(OptimizingLocallyDifferentiallyPrivateProtocols,OLH),用以决定RAPPOR中的最佳化参数。然而,OLH只能用于辨识具有小范围领域的数据中的「重击手」。相对的,RAPPOR与本专利技术所公开的方法并没有这样的限制。另外,SeiandOhsuga(详见于参考文件[22])提出了一对多随机虚拟样本机制(SingletoRandomizedMultipleDummies,S2M)与贝叶斯定理一对多随机虚拟样本机制(SingletoRandomizedMultipleDummieswithBayes,S2Mb),以及描述了应用均方误差值(meansquareerrors,MSEs)与詹森香農散度(Jensen-Shannondivergence,JSdivergence),其中MSEs与JSdivergence都可以达到与RAPPOR相似的效用。虽然参考文件[20]与参考文件[22]对RAPPOR的發展具有重要意義,但是本专利技术所公开的方法和参考文件[20]与参考文件[22]具有不同的评估指标,因此本专利技术所公开的方法无法与参考文件[20]与参考文件[22]比较。另外,一些不同于与RAPPOR的现有技术也启发了本专利技术。其中,BassilyandSmith(详见于参考文件[14])提出了产生简洁直方图的协定。所述简洁直方图是只包含所述数据中的「重击手」出現的次數,以及顯示所述协定符合频率估計的下界。另外,Papernotetal.(详见于参考文件[13])提出了教师全体隐私聚合(PrivateAggregationofTeacherEnsembles,PATE),PATE是能够保护敏感训练数据的一算法,其中所述敏感训练数本文档来自技高网...

【技术保护点】
1.一种收集与分析数据的方法,其特征在于包含:对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串;及对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串,其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。

【技术特征摘要】
2018.03.01 US 62/636,8571.一种收集与分析数据的方法,其特征在于包含:对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串;及对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串,其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。2.如权利要求1所述的方法,其特征在于所述第一噪声步骤包含:根据一真随机数产生器产生的一第一随机数集合,对所述原始数据串执行一永久随机响应以生成一暂时数据串;及根据所述真随机数产生器产生的一第二随机数集合,对所述暂时数据串执行一瞬时随机响应以生成所述第一数据串。3.如权利要求2所述的方法,其特征在于所述第二噪声步骤包含:根据所述真随机数产生器产生的一第三随机数集合,对所述第一数据串执行一合成随机响应以生成所述第二数据串。4.如权利要求1所述的方法,其特征在于:在对所述原始数据串执行所述第一噪声步骤后,所述原始数据串中的识别信息被去识别化。5.如权利要求1所述的方法,其特征在于另包含:接收一输入数据串並对所述输入数据串进行散列编码以生成具有所述原始特征的所述原始数据串。6.一种收集与分析数据的方法,其特征在于包含:对具有一特征分布的一原始数据串执行一第一噪声步骤以生成具有一第一分布的一第一数据串;及对所述第一数据串执行一第二噪声步骤以生成具有一第二分布的一第二数据串,其中所述特征分布与所述第一分布之间的一第一变异度大于所述特征分布与所述第二分布之间的一第二变异度。7.如权利要求6所述的方法,其特征在于所述第一噪声步骤包含:根据一真随机数产生器产生的一第一随机数集合,对所述原始数据串执行一永久随机响应以生成一暂时数据串;及根据所述真随机数产生器产生的一第二随机数集合,对所述暂时数据串执行一瞬时随机响应以生成所述第一数据串。8.如权利要求7所述的方法,其特征在于所述第二噪声步骤包含:根据所述真随机数产生器产生的一第三随机数集合,对所述第一数据串执行一合成随机响应以生成所述第二数据串。9.如权利要求6所述的方法,其特征在于:在对所述原始数据串执行所述第一噪声步骤后,所述原始数据串中的识别信息被去识别化。10.如权利要求6所述的方法,其特征在于另包含:接收输入数据串並對所述输入数据串进行散列编码以生成具有所述特征分布的所述原始数据串。11.一种收集与分析数据的装置,其特征在于包含:一第一处理器,用于对具有一原始特征的一原始数据串执行一第一噪声步骤以生...

【专利技术属性】
技术研发人员:邹耀东振昊张庆瑞郭斯彦
申请(专利权)人:钰创科技股份有限公司
类型:发明
国别省市:中国台湾,71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1