当前位置: 首页 > 专利查询>徐萍专利>正文

一种流式密集型数据脱敏方法及其数据脱敏设备技术

技术编号:16475787 阅读:138 留言:0更新日期:2017-10-29 03:37
本发明专利技术公开了一种流式密集型数据脱敏方法及其数据脱敏设备,设备包括:现场可编程门阵列FPGA,三态内容寻址存储器TCAM,双倍速率同步动态随机存储器DDR SDRAM,多核网络处理器、可扩展连接背板;方法的是:以在线采集、实时过滤、离线关联网络通信应用中的元数据流为目标,有针对性地分类、聚合、关联并依据规范化的数据共享等级规则和策略配置以及定制化白名单,创建有界的数据泛化应用模型和技术以及创新流式密集型数据脱敏的模式和设备。本发明专利技术优点是能够大大提高网络流通大数据的共享程度及范围,进行并行异步的数据泛化计算、同步的策略匹配以及线性决策边界扩展,提供定制化可编程的能力,并能够高速、即时地按规则和策略进行非涉密数据的脱敏。

【技术实现步骤摘要】
一种流式密集型数据脱敏方法及其数据脱敏设备
本专利技术涉及一种流式密集型数据脱敏方法及其数据脱敏设备,属于信息通信
本专利技术应用于互联网络非涉密大数据的按需等级化共享领域,用于解决对网络流通大数据的分析和数据挖掘以及网络安全威胁态势感知的技术问题。
技术介绍
目前,互联网络通信及其应用催生并承载着大数据时代。大数据不仅是网络传输的应用数据流通量大、速度高、类型多,更重要的是由于个性化行为的涌现,使得互联网成为既是一个开放的复杂巨系统,而且其动态地承载着复杂和未知的问题,包括网络安全威胁和风险。互联网的涌现Emerging指的是在同一时期内突然、大量的出现规律性群体行为,所具备的特点是:整体才有而个体不具备的非还原性非加和性;个体之间仅遵循简单的相互作用、相互补充、相互制约的规则;从而产生规模和结构性效应。所表现出的统计特性是:大量遵从简单规律的元素形成复杂的宏观运动,且往往是小概率事件触发一次相变,从而可能导致整个系统的状态变化。因此,对于互联网大数据,《还原论》Reductionism已不再是范式,在系统复杂性领域的研究也显现出力不从心。以数据为基础的数学模型所表述的复杂系统展现出新的前景,并正迅速发展为一门新的学科—网络科学。事实证明,不论是加强网络安全防御措施,还是提升态势感知能力;无论是促进社会和产业发展,或是对于科学研究的探索,其必要条件之一是共享数据,尤其是,当且仅当大数据被共享,其价值和作用才能得以挖掘及体现。但是,目前共享数据面临着挑战,包括:敏感数据的泄漏,个人隐私的曝光,甚至某些开放的数据被彼方作为开源情报OSINT收集。另一方面。值得关注的一个普遍现象是:一端是云建设的数据大迁徙后数据不得出门,而另一端却是在缺少真实、完整数据的环境下做着大数据分析工作或经验使然的千人一面解决方案。其中,大数据与大数据共享及分析之间存在一个亟待解决的瓶颈及刚需,即数据脱敏Desensitization。确保数据隐私权已成为许多受监管行业的法规之一,数据脱敏是生产系统强制执行数据保护工作的手段之一,依据既定的敏感信息使用规则屏蔽业务系统中数据的敏感信息,保障生产数据在非生产环境中安全使用,防止敏感信息泄露。例如,电话号码87652129能被屏蔽为****2129。然而,生产系统的综合数据不同于网络通信应用的流式Streaming数据。不失一般性,大数据能分为生产性即外延型及格式化存储和流通性即密集型及非格式化交换,其差别包括:由于分析及处置必须区分数据基本类型,数据脱敏的方法和所采用的技术手段也不尽相同。目前,对流式密集型数据的脱敏还处在相对薄弱或模糊阶段,并由此衬托出大数据挑战的实质:将海量的数据流转换为信息,以发现关键未知和支持及时决策。从大数据的视角,网络通信应用所产生的是典型的流式密集型数据StreamingData-Intensive。在数据采集和存储的领域,网络通信应用数据流的集合有时被称为全数据。对于如此高速、多变且持续增长的海量数据,完整、可用地处理全数据几乎不可能实现,往往不得不采用传统的采样技术而导致数据不可恢复地丢失及信息不可避免地失真。鉴于数据脱敏的主要目的是为了信息共享及数据分析,因此根据流式密集型数据的基本属性,本专利技术把全数据分为元数据和原数据:参考都柏林核心元数据DublinCore的规范和应用,元数据的基本作用由两个部分所组成:a.必要性-元数据定义的规范化,既与业务和应用相关、简单明了,又能够成为一般或特殊分析需要的线索点或异常发现的索引;b.重要性-元数据的采集和分析,把大数据分解为小数据,为线索点提供扩展和关联信息以及知识发现。基于元数据的全景采集和全息分类,本专利技术针对流式密集型数据的脱敏是有规则、有策略、有训练和学习的有界泛化计算。对流式密集型数据中元数据的全景采集和全息分类是现有技术。由于流式密集型数据的脱敏综合了通信密集型任务的重复性和计算密集型任务的学习性的特点,依靠纯软件或软件架构的系统难以实现对流式密集型数据脱敏处理。对于通用CPU,元数据流脱敏的有界泛化计算灵活多变的任务越多,花费在任务切换的时间就越多,CPU执行任务的效率就越低。此外,CPU需要通过网卡接收和发送数据,对流式数据的调度、等待、处理以及输入和输出,简称为IO,的开销也不可避免地增加了资源的浪费和操作延时的不确定性。
技术实现思路
本专利技术针对大数据的特点以及基本类型和属性,克服通用CPU的技术和应用缺陷,提出一种流式密集型数据脱敏方法及其数据脱敏设备。所述流式密集型数据脱敏方法即StreamingData-IntensiveDesensitization,以下简称SDID。本专利技术的流式密集型数据脱敏方法的核心技术构思是:以在线采集、实时过滤、离线关联网络通信应用中的元数据流为目标,有针对性地分类、聚合、关联并依据规范化的数据共享等级规则和策略配置以及定制化白名单,创建有界的数据泛化应用模型和技术以及创新流式密集型数据脱敏的模式和设备。本专利技术的流式密集型数据脱敏方法及其数据脱敏设备能够及时、动态地按规则和策略对流式密集型数据脱敏,以可控的数据失真度,支持了网络通信流通大数据的按需等级化共享和相应的数据分析。在ISO/IEC27002:2005信息安全标准中定义了数据资产的三个安全属性:保密性、完整性和可用性。尤其是对于国家关键信息基础设施,信息安全需要数据分析,数据分析必须数据共享,数据共享涉及数据资产,而三个安全属性对于不同的应用场景和受众有不同的现实内涵,例如:国家安全NationalSecurity与公共安全PublicSafety。从网络运营类型的构成,互联网络划分为包括国内和国际的公共互联网络和包括政府和行业专属局域网络,专属局域网络接入公共互联网络的连接部即为网络边界Perimeter,在本专利技术中称之为网际,并与云际同义。从专属局域网络的角度来看,互联网业务和应用数据与公共互联网络的交互通过网际流通,而且是网络数据传输的唯一路径,在本专利技术中称之为第一公里。从应用安全管理的需求,只有在网际所述第一公里所实时监测和分类采集的流式密集型数据能够具备全景和全息,其中元数据的集合被作为是大数据治理和支配的鸟瞰视图Birds-Eye-View以适应对网络流通大数据分析的完整性和可用性。从元数据预处理的实现在实际应用中得到改进和完善,但是尚需要建立流式密集型数据脱敏方法的规则和技术手段以保障数据共享和数据分析的脱敏即保密性。本专利技术所述流式密集型数据脱敏方法的原理如下:数据脱敏的主要目的为了数据分析的数据共享,因此泛化计算不仅使数据脱敏,而且需要保留数据类与类之间的继承关系,即泛化计算误差最小。通常,在偏差Bias和方差Variance之间有这样一种规律:如果应用模型过于简单,其具有大的偏差;而如果应用模型过于复杂,其就有大的方差。调整模型的复杂度,建立适当的误差模型,就变得极其重要了。为此,针对具体的应用目标,本专利技术的数据泛化计算简化为二分类问题,即定义输入元数据的类标签V{0,1},其中0标记不需要脱敏的数据,1标记需要脱敏的数据。相应地,定义第一级对于输入元数据流所分割的数据域所包含m个字段域的有序集合F={f1,f2,…,fm},定义第二级对应于F的m个脱敏字段域的有穷本文档来自技高网
...
一种流式密集型数据脱敏方法及其数据脱敏设备

【技术保护点】
一种数据脱敏设备,其特征在于,包括:现场可编程门阵列FPGA,三态内容寻址存储器TCAM,双倍速率同步动态随机存储器DDR SDRAM,多核网络处理器、可扩展连接背板;所述FPGA通过数据链路和数据通道连接元数据前端预处理设备,所述多核网络处理器通过数据链路输出脱敏数据流,所述FPGA和所述TCAM通过数据通道连接所述DDR SDRAM,所述多核网络处理器通过数据通道连接可扩展背板;所述双倍速率同步动态随机存储器DDR SDRAM分别与现场可编程门阵列FPGA、三态内容寻址存储器TCAM连接;所述现场可编程门阵列FPGA与三态内容寻址存储器TCAM连接;所述现场可编程门阵列FPGA、多核网络处理器、可扩展背板依次连接。

【技术特征摘要】
1.一种数据脱敏设备,其特征在于,包括:现场可编程门阵列FPGA,三态内容寻址存储器TCAM,双倍速率同步动态随机存储器DDRSDRAM,多核网络处理器、可扩展连接背板;所述FPGA通过数据链路和数据通道连接元数据前端预处理设备,所述多核网络处理器通过数据链路输出脱敏数据流,所述FPGA和所述TCAM通过数据通道连接所述DDRSDRAM,所述多核网络处理器通过数据通道连接可扩展背板;所述双倍速率同步动态随机存储器DDRSDRAM分别与现场可编程门阵列FPGA、三态内容寻址存储器TCAM连接;所述现场可编程门阵列FPGA与三态内容寻址存储器TCAM连接;所述现场可编程门阵列FPGA、多核网络处理器、可扩展背板依次连接。2.一种流式密集型数据脱敏方法,其特征在于,包括以下步骤:(1)、当元数据前端预处理设备传输的网络元数据流到达SDID设备时,FPGA依据FPGA中内置的规则仲裁和调度软件提取所述元数据前端预处理设备传输的网络元数据流中的相应字段及域段;执行所述规则仲裁;(2)、所述FPGA通过查询TCAM执行对所述元数据前端预处理设备传输的网络元数据流中的相应字段脱敏策略的边界学习;(3)、所述TCAM为数据脱敏的泛化计算提供量化策略的精确和模糊匹配,所述DDRSDRAM提供定制化的计算边界及执行状态的可视化;(4)、所述多核网络处理器对接收到的所述元数据前端预处理设备传输的网络元数据流进行分片防篡改签名,并定向地转发输出;(5)、所述FPGA检测所述多核网络处理器的数据转发延时状态,将检测信息反馈给所述前端元数据预处理设备,动态地调度所述元数据前端预处理设备传输的网络元数据流的输入和输出速率以避免拥塞;(6)、所述FPGA对当前接收到所述元数据前端预处理设备传输的网络元数据流执行所述规则仲裁,所述TCAM访问所述DDR...

【专利技术属性】
技术研发人员:徐萍徐茂邵国安王砚方石进中徐旻徐昊
申请(专利权)人:徐萍
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1