一种数据处理方法和系统技术方案

技术编号:16475782 阅读:31 留言:0更新日期:2017-10-29 03:37
本发明专利技术的提供了一种数据处理方法,包括以下步骤:获取待处理的源数据;确定源数据中可以被用来识别数据主体的信息;确定所述用来识别数据主体的信息的类型;根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理;对处理后的数据进行验证。本发明专利技术还提供一种数据处理系统。本发明专利技术将需要处理的源数据中可被用来识别数据主体的信息进行处理,并对处理后的数据进行验证,使得无法从处理后的源数据中识别出数据主体,有效地保护了数据主体私有的、敏感的数据,提高数据的安全性。

【技术实现步骤摘要】
一种数据处理方法和系统
本专利技术涉及计算机领域,尤其涉及一种数据处理方法和系统。
技术介绍
目前,随着我国信息化建设不断深化,企业的信息化业务系统越来越依赖于信息通信系统,信息通信系统的安全性和可靠性将直接影响到企业数据信息的安全保密性;然而,数据资源中往往包含大量的敏感信息,一旦泄露或遭到非法利用,将会给个人甚至是国家带来无法弥补的损失。数据库通过用户、角色和权限技术保护数据的安全,但是由于现在大部分应用并没有充分利用数据库的这种保护机制,而是通过应用控制数据的访问,如应用操作人员虽然以不同的身份登录到应用,但都是通过一个数据库用户连接到数据库,这样虽然可以对通过应用访问数据库的用户进行存取访问限制,但无法控制直接通过数据库用户登录到数据库的数据存取。数据库管理员(DatabaseAdministrator:DBA)可以通过程序方式批量处理一些敏感数据达到保护敏感数据的目的,不仅操作繁琐复杂,而且现有计算机硬件以及破解软件的算法越来越先进,传统的脱敏算法会很容易被破解。一旦脱敏算法被破解,那么经过批量还原处理就可以获得真实数据,造成敏感数据的严重泄露。随着大数据分析的成熟和价值挖掘的深入,从看似安全的数据中还原出用户的敏感、隐私信息已不再困难。传统的安全技术已无法直接使用,如何在大数据量的交换、共享及使用等过程中实现对敏感数据的精准定位和保护,达到数据安全、可靠、受控使用的目标,是数据产生者和管理者亟待解决的技术问题。
技术实现思路
为解决现有技术中存在的问题,本专利技术提供一种数据处理方法和系统,旨在解决在大数据量的交换、共享及使用等过程中实现对敏感数据的精准定位和保护,达到数据安全、可靠、受控使用的目标。本专利技术采用的技术方案为:本专利技术的一个实施例提供一种数据处理方法,包括以下步骤:获取待处理的源数据;确定源数据中可以被用来识别数据主体的信息;确定所述用来识别数据主体的信息的类型;根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理;对处理后的数据进行验证。可选地,所述数据处理方式包括:分别确定所述用来识别数据主体的信息中的各标识属性或敏感属性的数据的加密级别,根据确定的各标识属性或敏感属性的数据的加密级别确定相应的加密方法,以对各标识属性或敏感属性的数据进行加密。可选地,所述数据处理方式包括:移除所述用来识别数据主体的信息中的直接标识符,移除所述用来识别数据主体的信息中所有记录的部分或所有其他标识属性,为所述用来识别数据主体的信息中的每一数据主体创建唯一标识符代替所述直接标识符。可选地,根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理包括:确定重身份化风险阈值;确定源数据中可以被用来识别数据主体的信息,所述信息包括:直接标识符、准标识符和高维数据;确定所述信息中的所述直接标识符;直接移除所述直接标识符或者遮蔽所述直接标识符;根据可用于网络攻击的准标识符和非标识符数据值建立攻击模型;根据处理之后的所述源数据的应用场景确定最小可接受数据质量;转换所述准标识符。可选地,所述准标识符包括数值型标识符、日期信息、地理位置信息,所述转换所述准标识符包括基于所述准标识符的类型属性采取相应的转换方式以使得攻击者无法从转换后的信息中识别关于所述主体的信息,其中,对于数值型标识符中的离群点的值,转换成大于或者小于特定值;对于数值型标识符中的连续属性,转换成通过预设方法计算的平均值;对于数值型标识符中的小数值数据,转换成组合数据;对于数值型标识符中具有高可识别性的特殊值,进行直接移除或者转换成估算值;对于数值型标识符中表征所述数据主体属性的数据记录,进行交换处理;对于日期信息中的日期,泛化到年份的维度或者使用其他日期进行替代;对于地理位置信息,采用加入距离噪声的方式进行模糊化处理。可选地,所述对处理后的数据进行验证包括:对源数据和处理之后的数据统计计算,查看所述处理之后的数据是否包含标识信息,如果还包含标识信息则将所述处理之后的数据重新进行识别和处理直到不含标识信息,并确定所述处理之后的数据是否包含不可接受的更改,并确定是否可以用于预期目的。本专利技术的另一实施例提供一种数据处理系统,其特征在于,包括:数据获取单元,用于获取待处理的源数据;第一数据识别单元,用于确定源数据中可以被用来识别数据主体的信息;第二数据识别单元,用于确定所述用来识别数据主体的信息的类型;数据处理单元,用于根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理;数据验证单元,用于对处理后的数据进行验证。可选地,所述数据处理单元采用的数据处理方式包括:分别确定所述用来识别数据主体的信息中的各标识属性或敏感属性的数据的加密级别,根据确定的各标识属性或敏感属性的数据的加密级别确定相应的加密方法,以对各标识属性或敏感属性的数据进行加密。可选地,所述数据处理单元采用的数据处理方式包括:移除所述用来识别数据主体的信息中的直接标识符,移除所述用来识别数据主体的信息中所有记录的部分或所有其他标识属性,为所述用来识别数据主体的信息中的每一数据主体创建唯一标识符代替所述直接标识符。可选地,所述数据处理单元根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理包括:确定重身份化风险阈值;确定源数据中可以被用来识别数据主体的信息,所述信息包括:直接标识符、准标识符和高维数据;确定所述信息中的所述直接标识符;直接移除所述直接标识符或者遮蔽所述直接标识符;根据可用于网络攻击的准标识符和非标识符数据值建立攻击模型;根据处理之后的所述源数据的应用场景确定最小可接受数据质量;转换所述准标识符。可选地,所述准标识符包括数值型标识符、日期信息、地理位置信息,所述转换所述准标识符包括基于所述准标识符的类型属性采取相应的转换方式以使得攻击者无法从转换后的信息中识别关于所述主体的信息,其中,对于数值型标识符中的离群点的值,转换成大于或者小于特定值;对于数值型标识符中的连续属性,转换成通过预设方法计算的平均值;对于数值型标识符中的小数值数据,转换成组合数据;对于数值型标识符中具有高可识别性的特殊值,进行直接移除或者转换成估算值;对于数值型标识符中表征所述数据主体属性的数据记录,进行交换处理;对于日期信息中的日期,泛化到年份的维度或者使用其他日期进行替代;对于地理位置信息,采用加入距离噪声的方式进行模糊化处理。可选地,所述数据验证单元对处理后的数据进行验证包括:对源数据和处理之后的数据统计计算,查看所述处理之后的数据是否包含标识信息,如果还包含标识信息则将所述处理之后的数据重新进行识别和处理直到不含标识信息,并确定所述处理之后的数据是否包含不可接受的更改,并确定是否可以用于预期目的。本专利技术将需要处理的源数据中可被用来识别数据主体的信息进行处理,并对处理后的数据进行验证,使得无法从处理后的源数据中识别出数据主体,有效地保护了数据主体的私有的、敏感的数据,提高数据的安全性。附图说明图1为本专利技术一实施例提供的数据处理方法的流程示意图。图2为本专利技术一实施例的对识别数据主体的信息进行处理的流程示意图。图3为本专利技术另一实施例提供的数据处理系统的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术本文档来自技高网...
一种数据处理方法和系统

【技术保护点】
一种数据处理方法,其特征在于,包括以下步骤:获取待处理的源数据;确定源数据中可以被用来识别数据主体的信息;确定所述用来识别数据主体的信息的类型;根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理;对处理后的数据进行验证。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括以下步骤:获取待处理的源数据;确定源数据中可以被用来识别数据主体的信息;确定所述用来识别数据主体的信息的类型;根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理;对处理后的数据进行验证。2.根据权利要求1所述的数据处理方法,所述数据处理方式包括:分别确定所述用来识别数据主体的信息中的各标识属性或敏感属性的数据的加密级别,根据确定的各标识属性或敏感属性的数据的加密级别确定相应的加密方法,以对各标识属性或敏感属性的数据进行加密。3.根据权利要求1所述的数据处理方法,所述数据处理方式包括:移除所述用来识别数据主体的信息中的直接标识符,移除所述用来识别数据主体的信息中所有记录的部分或所有其他标识属性,为所述用来识别数据主体的信息中的每一数据主体创建唯一标识符代替所述直接标识符。4.根据权利要求1所述的数据处理方法,根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理包括:确定重身份化风险阈值;确定源数据中可以被用来识别数据主体的信息,所述信息包括:直接标识符、准标识符和高维数据;确定所述信息中的所述直接标识符;直接移除所述直接标识符或者遮蔽所述直接标识符;根据可用于网络攻击的准标识符和非标识符数据值建立攻击模型;根据处理之后的所述源数据的应用场景确定最小可接受数据质量;转换所述准标识符。5.根据权利要求4所述的数据处理方法,其特征在于,所述准标识符包括数值型标识符、日期信息、地理位置信息,所述转换所述准标识符包括基于所述准标识符的类型属性采取相应的转换方式以使得攻击者无法从转换后的信息中识别关于所述主体的信息,其中,对于数值型标识符中的离群点的值,转换成大于或者小于特定值;对于数值型标识符中的连续属性,转换成通过预设方法计算的平均值;对于数值型标识符中的小数值数据,转换成组合数据;对于数值型标识符中具有高可识别性的特殊值,进行直接移除或者转换成估算值;对于数值型标识符中表征所述数据主体属性的数据记录,进行交换处理;对于日期信息中的日期,泛化到年份的维度或者使用其他日期进行替代;对于地理位置信息,采用加入距离噪声的方式进行模糊化处理。6.根据权利要求1或4所述的数据处理方法,其特征在于,所述对处理后的数据进行验证包括:对源数据和处理之后的数据统计计算,查看所述处理之后的数据是否包含标识信息,如果还包含标识信息则将所述处理之后的数据重新进行识别和处理直到不含标识信息,并确定所述处理之后的数据是否包含不可接受的更改,并确定是否可以用于预期目的。7.一种数据处理系统,其特征在于,包括:数据获取单元,用于获取待处理的源数据;第一...

【专利技术属性】
技术研发人员:刘希马宁唐妍
申请(专利权)人:国信优易数据有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1