一种相互隔离的多来源大数据融合分析方法及系统技术方案

技术编号:17705133 阅读:34 留言:0更新日期:2018-04-14 18:02
本发明专利技术提供一种相互隔离的多来源大数据融合分析方法及系统,方法包括:每个数据提供客户端在本地自定义数据变换规则,并私密保存自定义的数据变换规则;每个所述数据提供客户端自定义的数据变换规则对其他数据提供客户端和所述数据挖掘平台均保密;每个数据提供客户端对原始数据采用数据变换规则进行处理,再将所述变换后的数据上传给所述数据挖掘平台,由此实现数据挖掘平台获取相互隔离的多来源大数据。优点为:有效保护了数据隐私,防止用户隐私泄漏,具有用户隐私保护安全级别高的优点;方便数据挖掘平台对不同数据来源的同一个ID对应的数据进行融合计算;彻底消除可阅读的信息量,消灭交叉验证的可能性,保证隐私的绝对安全。

【技术实现步骤摘要】
一种相互隔离的多来源大数据融合分析方法及系统
本专利技术属于大数据融合分析
,具体涉及一种相互隔离的多来源大数据融合分析方法及系统。
技术介绍
随着智慧城市、智慧交通、智能家居、智能电网、智慧医疗、在线社交网络等数字化技术的发展,促成了大数据时代的到来。大数据蕴含着巨大的商业价值,目前,各行各业都在进行大数据分析和挖掘。然而,在享受大数据挖掘得到的各种各样有价值信息的同时,也不可避免地泄露了人们的隐私。如何在不泄露用户隐私的前提下,提高大数据的利用率,挖掘大数据的价值,是目前大数据研究领域的关键问题。目前,在大数据分析和挖掘领域,主要采取的方案为:数据挖掘平台和多个数据提供客户端连接,数据提供客户端向数据挖掘平台上传原始数据之前,对原始数据进行隐私保护处理,再将处理后的数据上传给数据挖掘平台。具体的,原始数据格式为:{ID1,A1:V1,A2:V2,A3:V3,...),其中,ID为对应现实实体的键值,如身份证号,手机号等;A:V表示属性:值,A为所有属性的集合,如“性别”“年龄”“学历”“收入”等。每个属性的所有可能取值构成该属性的值域集合。当一条数据中的ID、A、V皆以明文显示时,该客体的隐私就暴露了。如:{13601193825,sex:M,age:44,education:phd,salary:10000...}。因此,为保护用户隐私,目前,数据提供客户端采用的隐私保护方法为:数据提供客户端通过某种变换算法将ID变换为不可阅读的ID’,即:{ID1,A1:V1,A2:V2,A3:V3,...}→{ID′1,A1:V1,A2:V2,A3:V3,...},从而使该数据中的属性:值A:V无法对应到现实客体。如:将{13601193825,sex:M,age:44,education:phd,salary:10000...}变换为:{61df800c717206c4bdda8e1f966e1fa2,sex:M,age:44,education:phd,salary:10000...},然后再开放该数据,将其上传给数据挖掘平台进行分析。上述隐私保护方法主要存在以下不足:(1)由于不同数据提供客户端采用的对ID进行变换的方法不同,例如,对于同一个ID号,数据提供客户端1将其变换为ID’,而数据提供客户端2将其变换为ID”,ID’和ID”不相同,因此,数据挖掘平台无法对不同数据来源的同一个ID对应的数据进行融合计算,不利于全方面进行数据挖掘分析。(2)因为ID的变换是在有限空间内进行,通过枚举、撞库等方法也可以被解密,从而仍然会导致用户隐私泄漏,具有用户隐私保护安全级别低的问题。(3)由于保留了属性:值A:V的信息,因此,剩余可阅读信息量仍然过大,一方面,存在交叉验证的可能性,导致数据提供客户端对数据挖掘平台的信任度偏低,拥有大量数据的数据提供方不敢提供自有的数据给数据挖掘平台使用,因此,不利于数据提供客户端和数据挖掘平台达成合作,由此不利于数据挖掘平台的发展。另一方面,一旦不慎发生数据泄露,可能造成重大损失。由此可见,如何有效保证数据挖掘平台在大数据的分析使用过程中,用户的隐私不被泄露,既实现数据高效利用,又实现用户隐私保护,是目前急需解决的事情。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种相互隔离的多来源大数据融合分析方法及系统,可有效解决上述问题。本专利技术采用的技术方案如下:本专利技术提供一种相互隔离的多来源大数据融合分析方法,包括以下步骤:步骤1,数据挖掘平台分别与若干个数据提供客户端通信连接;其中,每个数据提供客户端在本地自定义数据变换规则,并私密保存自定义的数据变换规则;每个所述数据提供客户端自定义的数据变换规则对其他数据提供客户端和所述数据挖掘平台均保密;步骤2,每个数据提供客户端对待上传的原始数据采用私密保存自定义的数据变换规则进行处理,得到变换后的数据;再将所述变换后的数据上传给所述数据挖掘平台,由此实现数据挖掘平台获取相互隔离的多来源大数据;本步骤具体为:步骤2.1,每个数据提供客户端获取待上传的原始数据,所述原始数据格式为:{ID,A1:V1,A2:V2,...,An:Vn},其中,ID为对应现实实体的键值;A1:V1表示第1属性:第1属性的值;A2:V2表示第2属性:第2属性的值;依此类推,An:Vn表示第n属性:第n属性的值;n代表原始数据中包括的属性的总数量;步骤2.2,所述数据提供客户端基于本地私密保存的自定义的数据变换规则,对所述原始数据进行数据变换,得到隐私保护处理并具有可计算性的变换后数据;其中,所述数据变换规则是指:保留原始数据的键值ID不变,仅对原始数据的属性A和属性的值V进行数据变换,使属性A和属性的值V去语义化但具有可计算性;即,将{ID,A1:V1,A2:V2,...,An:Vn}变换为:{ID,A′1:V′1,A′2:V′2,...,A′n:′n},其中,A′1为A1进行数据变换后的属性;V′1为V1进行数据变换后的属性的值;A′2为A2进行数据变换后的属性;V′2为V2进行数据变换后的属性的值;依此类推,A′n为An进行数据变换后的属性;V′n为Vn进行数据变换后的属性的值;步骤2.3,所述数据提供客户端将变换后的数据上传给所述数据挖掘平台;步骤3,所述数据挖掘平台采用数据库存储各个数据提供客户端上传的变换后的数据,并对步骤2获得的相互隔离的多来源大数据进行数据融合挖掘,得到数据融合挖掘结果。优选的,步骤2.2中,对原始数据的属性A和属性的值V进行数据变换,使属性A和属性的值V去语义化但具有可计算性,具体为:对于属性,按预设定属性变换规则,将属性直接转换为属性描述字段;属性描述字段为实数、字符或实数和字符的组合形式;其中,对于相同的属性,映射为相同的属性描述字段;对于属性的值,如果属性的值为数值类,按预设定数值类属性的值变换规则,将每个数值类属性的值映射为实数;其中,各个数值类属性的值之间的数值大小关系与映射后实数之间的数值大小关系保持不变;如果属性的值为文字描述类,按预设定文字描述类属性的值变换规则,将每个文字描述类属性的值映射为实数;其中,对于相同的文字描述类属性的值,映射为相同的实数。优选的,所述文字描述类属性的值变换规则为:对于原始数据{ID,A1:V1,A2:V2,...,An:Vn},假设V1,V2,...,Vn均为文字描述类属性的值,将相同属性的值归为一类,每类属性的值包括的属性的值数量即为归属于该类的每个属性的值转换后的实数的值;所述数值类属性的值变换规则为:采用单调函数对各个数值类属性的值进行变换,得到变换后的实数。优选的,所述单调函数为单调递增函数。优选的,步骤3具体为:步骤3.1,数据挖掘平台与数据使用客户端通信连接;所述数据使用客户端在本地自定义数据变换规则和数据反变换规则,并私密保存自定义的数据变换规则和数据反变换规则;所述数据使用客户端自定义的数据变换规则和数据反变换规则对其他数据提供客户端和所述数据挖掘平台均保密;保留原始数据的键值ID不变,仅对原始数据的属性A和属性的值V进行数据变换,使属性A和属性的值V去语义化但具有可计算性;所述数据反变换规则为所述数据变换规则的可逆变换规则;步骤3.2,数据使用客户端根据业本文档来自技高网
...
一种相互隔离的多来源大数据融合分析方法及系统

【技术保护点】
一种相互隔离的多来源大数据融合分析方法,其特征在于,包括以下步骤:步骤1,数据挖掘平台分别与若干个数据提供客户端通信连接;其中,每个数据提供客户端在本地自定义数据变换规则,并私密保存自定义的数据变换规则;每个所述数据提供客户端自定义的数据变换规则对其他数据提供客户端和所述数据挖掘平台均保密;步骤2,每个数据提供客户端对待上传的原始数据采用私密保存自定义的数据变换规则进行处理,得到变换后的数据;再将所述变换后的数据上传给所述数据挖掘平台,由此实现数据挖掘平台获取相互隔离的多来源大数据;本步骤具体为:步骤2.1,每个数据提供客户端获取待上传的原始数据,所述原始数据格式为:{ID,A1:V1,A2:V2,...,An:Vn},其中,ID为对应现实实体的键值;A1:V1表示第1属性:第1属性的值;A2:V2表示第2属性:第2属性的值;依此类推,An:Vn表示第n属性:第n属性的值;n代表原始数据中包括的属性的总数量;步骤2.2,所述数据提供客户端基于本地私密保存的自定义的数据变换规则,对所述原始数据进行数据变换,得到隐私保护处理并具有可计算性的变换后数据;其中,所述数据变换规则是指:保留原始数据的键值ID不变,仅对原始数据的属性A和属性的值V进行数据变换,使属性A和属性的值V去语义化但具有可计算性;即,将{ID,A1:V1,A2:V2,...,An:Vn}变换为:{ID,A′1:V′1,A′2:V′2,...,A′n:V′n},其中,A′1为A1进行数据变换后的属性;V′1为V1进行数据变换后的属性的值;A′2为A2进行数据变换后的属性;V′2为V2进行数据变换后的属性的值;依此类推,A′n为An进行数据变换后的属性;V′n为Vn进行数据变换后的属性的值;步骤2.3,所述数据提供客户端将变换后的数据上传给所述数据挖掘平台;步骤3,所述数据挖掘平台采用数据库存储各个数据提供客户端上传的变换后的数据,并对步骤2获得的相互隔离的多来源大数据进行数据融合挖掘,得到数据融合挖掘结果。...

【技术特征摘要】
1.一种相互隔离的多来源大数据融合分析方法,其特征在于,包括以下步骤:步骤1,数据挖掘平台分别与若干个数据提供客户端通信连接;其中,每个数据提供客户端在本地自定义数据变换规则,并私密保存自定义的数据变换规则;每个所述数据提供客户端自定义的数据变换规则对其他数据提供客户端和所述数据挖掘平台均保密;步骤2,每个数据提供客户端对待上传的原始数据采用私密保存自定义的数据变换规则进行处理,得到变换后的数据;再将所述变换后的数据上传给所述数据挖掘平台,由此实现数据挖掘平台获取相互隔离的多来源大数据;本步骤具体为:步骤2.1,每个数据提供客户端获取待上传的原始数据,所述原始数据格式为:{ID,A1:V1,A2:V2,...,An:Vn},其中,ID为对应现实实体的键值;A1:V1表示第1属性:第1属性的值;A2:V2表示第2属性:第2属性的值;依此类推,An:Vn表示第n属性:第n属性的值;n代表原始数据中包括的属性的总数量;步骤2.2,所述数据提供客户端基于本地私密保存的自定义的数据变换规则,对所述原始数据进行数据变换,得到隐私保护处理并具有可计算性的变换后数据;其中,所述数据变换规则是指:保留原始数据的键值ID不变,仅对原始数据的属性A和属性的值V进行数据变换,使属性A和属性的值V去语义化但具有可计算性;即,将{ID,A1:V1,A2:V2,...,An:Vn}变换为:{ID,A′1:V′1,A′2:V′2,...,A′n:V′n},其中,A′1为A1进行数据变换后的属性;V′1为V1进行数据变换后的属性的值;A′2为A2进行数据变换后的属性;V′2为V2进行数据变换后的属性的值;依此类推,A′n为An进行数据变换后的属性;V′n为Vn进行数据变换后的属性的值;步骤2.3,所述数据提供客户端将变换后的数据上传给所述数据挖掘平台;步骤3,所述数据挖掘平台采用数据库存储各个数据提供客户端上传的变换后的数据,并对步骤2获得的相互隔离的多来源大数据进行数据融合挖掘,得到数据融合挖掘结果。2.根据权利要求1所述的相互隔离的多来源大数据融合分析方法,其特征在于,步骤2.2中,对原始数据的属性A和属性的值V进行数据变换,使属性A和属性的值V去语义化但具有可计算性,具体为:对于属性,按预设定属性变换规则,将属性直接转换为属性描述字段;属性描述字段为实数、字符或实数和字符的组合形式;其中,对于相同的属性,映射为相同的属性描述字段;对于属性的值,如果属性的值为数值类,按预设定数值类属性的值变换规则,将每个数值类属性的值映射为实数;其中,各个数值类属性的值之间的数值大小关系与映射后实数之间的数值大小关系保持不变;如果属性的值为文字描述类,按预设定文字描述类属性的值变换规则,将每个文字描述类属性的值映射为实数;其中,对于相同的文字描述类属性的值,映射为相同的实数。3.根据权利要求2所述的相互隔离的多来源大数据融合分析方法,其特征在于,所述文字描述类属性的值变换规则为:对于原始数据{ID,A1:V1,A2:V2,...,An:Vn},假设V1,V2,...,Vn均为文字描述类属性的值,将相同属性的值归为一类,每类属性的值包括的属性的值数量即为归属于该类的每个属性的值转换后的实数的值;所述数值类属性的值变换规则为:采用单调函数对各个数值类属性的值进行变换,得到变换后的实数。4.根据权利要求3所述的相互隔离的多来源大数据融合分析方法,其特征在于,所述单调函数为单调递增函数。5.根据权利要求1所述的相互隔离的多来源大数据融合分析方法,其特征在于,步骤3具体为:步骤3.1,数据挖掘平台与数据使用客户端通信连接;所述数据使用客户端在本地自定义数据变换规则和数据反变换规则,并私密保存自定义的数据变换规则和数据反变换规则;所述数据使用客户端自定义的数据变换规则和数据反变换规则对其他数据提供客户端和所述数据挖掘平台均保密;保留原始数据的键值ID不变,仅对原始数据的属性A和属性的值V进行数据变换,使属性A和属性的值V去语义化但具有可计算性;所述数据反变换规则为所述数据变换规则的可逆变换规则;步骤3.2,数据使用客户端根据业务需求,获得待分析的原始数据,并采用本地自定义数据变换规则对所述原始数据进行数据变换,得到隐私保护处理并具有可计算性的变换后数据;步骤3.3,数据使用客户端将步骤3.2得到的变换后数据上传给所述数据挖掘平台;步骤3.4,所述数据挖掘平台对数据使用客户端上传的变换后数据进行分析,提取到键值ID;然后,所述数据挖掘平台分析所述数据库,提取到同一键值ID涉及到的多条数据;然后,所述数据挖掘平台对数据使用客户端上传的变换后数据和提取到的同一键值ID涉及到的多条数据进行数据融合分析,得到有关于该键值ID的数据分析结果;步骤3.5,所述数据挖掘平台将所述数据分析结果发送给所述数据使用客户端;步骤3.6,所述数据使用客户端采用自定义的数据反变换规则对所述数据分析结果进行反变换处理,得...

【专利技术属性】
技术研发人员:王江刘文龙
申请(专利权)人:北京恺思睿思信息技术有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1