一种基于隐私保护的关联规则挖掘方法、系统及电子设备技术方案

技术编号:17941739 阅读:58 留言:0更新日期:2018-05-15 21:37
本申请涉及数据挖掘技术领域,特别涉及一种基于隐私保护的关联规则挖掘方法、系统及电子设备。所述方法包括:发送方对待挖掘数据集进行可搜索加密,并将加密后的待挖掘数据集上传至云服务端;发送方向云服务端发送关联规则挖掘请求,并向云服务端提交挖掘关键词;云服务端根据所述挖掘关键词,利用基于差分隐私保护的关联规则挖掘算法对所述加密的待挖掘数据集进行关联规则挖掘。本申请利用对称可搜索加密算法对待挖掘数据进行加密处理,保障了数据存储的安全性,同时利用差分隐私保护的关联规则挖掘方法对待挖掘数据进行关联规则挖掘,确保了在数据挖掘的过程,中间缓存过程以及后期结果发布过程中数据全流程的隐私性。

Privacy preserving association rule mining method, system and electronic device

The application relates to the field of data mining technology, in particular to an association rule mining method, system and electronic equipment based on privacy protection. The methods include: the sender can search and encrypt the mining data set by the sender, and upload the encrypted data set to the cloud server; the sending direction cloud server sends the association rule mining request, and the Xiang Yun server submits the mining keywords; the cloud server uses the mining keyword based on the difference implicit. Privacy preserving association rule mining algorithm extracts association rules from the encrypted data set to be mined. This application uses symmetric and searchable encryption algorithm to encrypt the mining data, and ensures the security of data storage. At the same time, it uses the association rule mining method of differential privacy protection to mine the mining data for association rules mining, which ensures the process of data mining, the middle caching process and the post result publication. The whole process of data in the process of privacy.

【技术实现步骤摘要】
一种基于隐私保护的关联规则挖掘方法、系统及电子设备
本申请涉及数据挖掘
,特别涉及一种基于隐私保护的关联规则挖掘方法、系统及电子设备。
技术介绍
随着社会的发展,人们在享受到科技发展和社会进步带来的便利时也更加关注自己的健康。伴随着大数据技术的发展,医院里尘封的医疗大数据又重新得到了重视,由于医疗大数据的特殊性,人们可以通过数据挖掘等手段从这些尘封的医疗大数据里挖掘出许多新的、有用的信息,用于开展精准辅助诊疗。但由于医疗大数据的敏感性极高,如何在数据挖掘中保障医疗大数据的隐私性是一个重要挑战。熊富蕊的《基于MapReduce的隐私保护的关联规则挖掘算法的研究》第三章提到了对待挖掘的数据进行隐私保护。康海燕在《差分隐私保护在数据挖掘中应用综述》的2.1节提到了多种基于差分隐私的模式挖掘,并对它们进行比较。党晓的《基于MapReduce的对称可搜索加密方案》第四章提到了基于MapReduce的对称可搜索加密方案。关联规则挖掘(Associationrulemining)是数据挖掘中最活跃的研究方法之一,可以用来发现事情之间的联系。例如,从医疗数据中发现的规则{高血压,心脏病}→{中风}会表明如果患者同时患有高血压和心脏病,该患者也患有中风。此类规则可以作为做出医生诊断和预测患者疾病从而提早预防的根据。但是,现有关联规则挖掘技术主要注重医疗数据挖掘中的性能问题,却没有解决如何保障医疗数据隐私的问题。
技术实现思路
本申请提供了一种基于隐私保护的关联规则挖掘方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。为了解决上述问题,本申请提供了如下技术方案:一种基于隐私保护的关联规则挖掘方法,包括:步骤a:发送方对待挖掘数据集进行可搜索加密,并将加密后的待挖掘数据集上传至云服务端;步骤b:发送方向云服务端发送关联规则挖掘请求,并向云服务端提交挖掘关键词;步骤c:云服务端根据所述挖掘关键词,利用基于差分隐私保护的关联规则挖掘算法对所述加密的待挖掘数据集进行关联规则挖掘。本申请实施例采取的技术方案还包括:在所述步骤a前还包括:发送方向云服务端提交注册请求,云服务端根据所述注册请求为该发送方创建对应的存储区域,并启动为该发送方提供数据服务的服务器;所述存储区域用于存储所述发送方上传的待挖掘数据集用户信息。本申请实施例采取的技术方案还包括:在所述步骤a中,所述发送方对待挖掘数据集进行可搜索加密还包括:发送方对待挖掘数据进行清洗,提取待挖掘数据中的用户ID和用户信息关键词,形成待挖掘数据集。本申请实施例采取的技术方案还包括:在所述步骤a中,所述发送方对待挖掘数据集进行可搜索加密具体为:利用可搜索加密算法对所述待挖掘数据集中的所有用户信息关键词进行加密;所述发送方对待挖掘数据集进行加密,并将加密的待挖掘数据集上传至云服务端具体包括:步骤a1:将所述待挖掘数据集进行预加密,得到预加密数据Cpre;步骤a2:将预加密数据Cpre分割成n-m比特和m比特,并利用密码生成n-m比特的伪随机序列S;步骤a3:使用密码生成伪随机值k;步骤a4:以伪随机序列S作为参数,利用伪随机函数F以及f生成m比特的值,构成Salt值步骤a5:将预加密数据Cpre与Salt值Ti异或,得到原始密文数据集;步骤a6:将原始密文数据集上传到服务器。本申请实施例采取的技术方案还包括:在所述步骤a6中,所述将原始密文数据集上传到服务器后还包括:步骤a7:服务器对原始密文数据集进行预处理,得到预处理结果表;所述预处理即以原始密文数据集中的用户ID为键值,将用户信息关键词聚集在一起;步骤a8:服务器将原始密文数据集和预处理结果表分别随机打乱顺序后,一起存储在该发送方对应的存储区域内。本申请实施例采取的技术方案还包括:在所述步骤b中,所述向云服务端提交挖掘关键词具体为:发送方指定挖掘关键词,利用对称可搜索加密算法将所述挖掘关键词加密后生成挖掘关键词陷门,并将生成的挖掘关键词陷门提交给服务器;其中,所述挖掘关键词与用户信息关键词相对应。本申请实施例采取的技术方案还包括:在所述步骤c中,所述云服务端根据所述挖掘关键词,利用基于差分隐私保护的关联规则挖掘算法对所述加密的待挖掘数据集进行关联规则挖掘还包括:将所述挖掘关键词陷门与预处理结果表中的用户信息关键词进行匹配,并判断匹配是否全部成功,如果匹配全部成功,根据所述挖掘关键词陷门对所述原始密文数据集进行关联规则挖掘;否则,向发送方返回挖掘关键词陷门匹配失败信息。本申请实施例采取的技术方案还包括:在所述步骤c中,所述利用基于差分隐私保护的关联规则挖掘算法对所述加密的待挖掘数据集进行关联规则挖掘具体包括:步骤c1:根据挖掘关键词陷门,对原始密文数据集进行过滤和排序,形成新的密文数据集D*;步骤c2:根据新的密文数据集D*构造频繁模式树,通过频繁模式树搜索符合条件的频繁模式以及各频繁模式的支持度,并选取支持度计数不小于阈值min_count的频繁模式集合Cset;步骤c3:采用指数机制从频繁模式集合Cset中挑选出k个最容易出现隐私泄露的频繁模式集;步骤c4:对k个频繁模式集的支持度计数添加噪音;步骤c5:对添加噪音的k个频繁模式集的支持度计数进行一致性约束;步骤c6:利用噪音计数集合计算关联规则指数;步骤c7:根据关联规则指数计算结果向发送方返回关联规则挖掘结果。本申请实施例采取的另一技术方案为:一种基于隐私保护的关联规则挖掘系统,包括终端设备和云服务端;所述终端设备包括:数据加密模块:用于对待挖掘数据集进行加密,并将加密的待挖掘数据集上传至云服务端;数据挖掘请求模块:用于向云服务端发送关联规则挖掘请求;关键词提交模块:用于向云服务端提交挖掘关键词;所述云服务端包括:关联规则挖掘模块:用于在接收到关联规则挖掘请求后,根据所述挖掘关键词,利用基于差分隐私保护的关联规则挖掘算法对所述加密的待挖掘数据集进行关联规则挖掘。本申请实施例采取的技术方案还包括:所述终端设备还包括:用户信息注册请求模块:用于向云服务端提交注册请求;所述云服务端还包括:注册模块:用于根据所述注册请求为该终端设备创建对应的存储区域,并启动为该终端设备提供数据服务的服务器;所述存储区域用于存储所述待挖掘数据集。本申请实施例采取的技术方案还包括:所述终端设备还包括:数据处理模块:用于对待挖掘数据进行清洗,提取待挖掘数据中的用户ID和用户信息关键词,形成待挖掘数据集。本申请实施例采取的技术方案还包括:所述数据加密模块对待挖掘数据集进行可搜索加密具体为:利用可搜索加密算法对所述待挖掘数据集中的所有用户信息关键词进行加密;所述数据加密模块具体包括:预加密单元:用于将所述待挖掘数据集进行预加密,得到预加密数据Cpre;数据分割单元:用于将预加密数据Cpre分割成n-m比特和m比特,并利用密码生成n-m比特的伪随机序列S;伪随机值生成单元:用于使用密码生成伪随机值k;随机盐值生成单元:用于以伪随机序列S作为参数,利用伪随机函数F以及f生成m比特的值,构成Salt值异或操作单元:用于将预加密数据Cpre与Salt值Ti异或,得到原始密文数据集,并将原始密文数据集上传到服务器。本申请实施例采取的技术方案还包括:所述云服务端还包括:数据预处理模本文档来自技高网...
一种基于隐私保护的关联规则挖掘方法、系统及电子设备

【技术保护点】
一种基于隐私保护的关联规则挖掘方法,其特征在于,包括:步骤a:发送方对待挖掘数据集进行可搜索加密,并将加密后的待挖掘数据集上传至云服务端;步骤b:发送方向云服务端发送关联规则挖掘请求,并向云服务端提交挖掘关键词;步骤c:云服务端根据所述挖掘关键词,利用基于差分隐私保护的关联规则挖掘算法对所述加密的待挖掘数据集进行关联规则挖掘。

【技术特征摘要】
1.一种基于隐私保护的关联规则挖掘方法,其特征在于,包括:步骤a:发送方对待挖掘数据集进行可搜索加密,并将加密后的待挖掘数据集上传至云服务端;步骤b:发送方向云服务端发送关联规则挖掘请求,并向云服务端提交挖掘关键词;步骤c:云服务端根据所述挖掘关键词,利用基于差分隐私保护的关联规则挖掘算法对所述加密的待挖掘数据集进行关联规则挖掘。2.根据权利要求1所述的基于隐私保护的关联规则挖掘方法,其特征在于,在所述步骤a前还包括:发送方向云服务端提交注册请求,云服务端根据所述注册请求为该发送方创建对应的存储区域,并启动为该发送方提供数据服务的服务器;所述存储区域用于存储所述发送方上传的待挖掘数据集。3.根据权利要求2所述的基于隐私保护的关联规则挖掘方法,其特征在于,在所述步骤a中,所述发送方对待挖掘数据集进行可搜索加密还包括:发送方对待挖掘数据进行清洗,提取待挖掘数据中的用户ID和用户信息关键词,形成待挖掘数据集。4.根据权利要求3所述的基于隐私保护的关联规则挖掘方法,其特征在于,在所述步骤a中,所述发送方对待挖掘数据集进行可搜索加密具体为:利用可搜索加密算法对所述待挖掘数据集中的所有用户信息关键词进行加密;所述发送方对待挖掘数据集进行加密,并将加密的待挖掘数据集上传至云服务端具体包括:步骤a1:将所述待挖掘数据集进行预加密,得到预加密数据Cpre;步骤a2:将预加密数据Cpre分割成n-m比特和m比特,并利用密码生成n-m比特的伪随机序列S;步骤a3:使用密码生成伪随机值k;步骤a4:以伪随机序列S作为参数,利用伪随机函数F以及f生成m比特的值,构成Salt值步骤a5:将预加密数据Cpre与Salt值Ti异或,得到原始密文数据集;步骤a6:将原始密文数据集上传到服务器。5.根据权利要求4所述的基于隐私保护的关联规则挖掘方法,其特征在于,在所述步骤a6中,所述将原始密文数据集上传到服务器后还包括:步骤a7:服务器对原始密文数据集进行预处理,得到预处理结果表;所述预处理即以原始密文数据集中的用户ID为键值,将所述用户信息关键词聚集在一起;步骤a8:服务器将原始密文数据集和预处理结果表分别随机打乱顺序后,一起存储在该发送方对应的存储区域内。6.根据权利要求5所述的基于隐私保护的关联规则挖掘方法,其特征在于,在所述步骤b中,所述向云服务端提交挖掘关键词具体为:发送方指定挖掘关键词,利用对称可搜索加密算法将所述挖掘关键词加密后生成挖掘关键词陷门,并将生成的挖掘关键词陷门提交给服务器;其中,所述挖掘关键词与用户信息关键词相对应。7.根据权利要求6所述的基于隐私保护的关联规则挖掘方法,其特征在于,在所述步骤c中,所述云服务端根据所述挖掘关键词,利用基于差分隐私保护的关联规则挖掘算法对所述加密的待挖掘数据集进行关联规则挖掘还包括:将所述挖掘关键词陷门与预处理结果表中的用户信息关键词进行匹配,并判断匹配是否全部成功,如果匹配全部成功,根据所述挖掘关键词陷门对所述原始密文数据集进行关联规则挖掘;否则向发送方返回挖掘关键词陷门匹配失败信息。8.根据权利要求7所述的基于隐私保护的关联规则挖掘方法,其特征在于,在所述步骤c中,所述利用基于差分隐私保护的关联规则挖掘算法对所述加密的待挖掘数据集进行关联规则挖掘具体包括:步骤c1:根据挖掘关键词陷门,对原始密文数据集进行过滤和排序,形成新的密文数据集D*;步骤c2:根据新的密文数据集D*构造频繁模式树,通过频繁模式树搜索符合条件的频繁模式以及各频繁模式的支持度,并选取支持度计数不小于阈值min_count的频繁模式集合Cset;步骤c3:采用指数机制从频繁模式集合Cset中挑选出k个最容易出现隐私泄露的频繁模式集;步骤c4:对k个频繁模式集的支持度计数添加噪音;步骤c5:对添加噪音的k个频繁模式集的支持度计数进行一致性约束;步骤c6:利用噪音计数集合计算关联规则指数;步骤c7:根据关联规则指数计算结果向发送方返回关联规则挖掘结果。9.一种基于隐私保护的关联规则挖掘系统,其特征在于,包括终端设备和云服务端;所述终端设备包括:数据加密模块:用于对待挖掘数据集进行可搜索加密,并将加密后的待挖掘数据集上传至云服务端;数据挖掘请求模块:用于向云服务端发送关联规则挖掘请求;关键词提交模块:用...

【专利技术属性】
技术研发人员:卢澄志叶可江须成忠
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1