一种数据归一化方法技术

技术编号:3539892 阅读:733 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种数据归一化方法,其中,包括下列步骤:通过将数据进行数据格式化脚本文件进行数据格式化,并通过数据映射脚本文件进行数据映射,将数据进行归一化。依照本发明专利技术的方法,通过数据格式化脚本文件和数据映射脚本文件,整个过程都通过脚本的形式进行描述,以大大降低开发、调试及维护的难度,并提供了极其灵活的环境适应及客户化能力。

【技术实现步骤摘要】

本专利技术涉及安全信息管理,特别涉及。
技术介绍
为了应对企业内、外部的安全挑战,企业先后部署了大量的安全系统,但 却往往形成各个防御孤岛一系统间缺乏协同,由此,各种安全系统产生了大量 告警,出现信息过载,造成很多误报和漏报。此外,企业还面临着不断增长的 内控和信息系统审计的压力,要求增强业务持续性的呼声不断提高。所有这些 都在呼唤面向全网的安全信息集中管理平台的出现,这就是安全信息管理(Security Information Manager, SIM )。安全信息管理也叫安全信息和事件管理(Security Information and Event Manager, SIEM),这是一个面向企业IT计算环境的安全集中管理平台,该平 台能够收集来自企业计算环境中的各种设备、应用的安全日志和事件,并进行 集中存储、监控、分析、报警、响应和报告,变过去被动的单点防御为全网的 综合防雄卩。目前,SIM正被广泛应用于企业内部的威胁管理、合规审计、日志 管理、安全审计及应急响应等方面。目前普遍采用基于插件开发的形式进行数据归一化。插件是计算机软件中 的一种特殊程序,其实现独立的功能逻辑,通过统一的程序接口与主程序交 互,从而扩充主程序的功能,其不能单独执行,必须依赖于主程序环境方可运 行。通过自定义的接口,插件能够自由访问主程序中的各种资源,编程自由度 极大,可以无限发挥插件开发者的创意,但编写相对复杂,对于插件接口之间 的协调比较困难,插件的开发需要专业的程序员才能进行。插件开发一般需要 通过专业的开发工具(如VB, VC等)。插件的存在形式为经过代码编译产生 的二进制文件。每当有一种新的数据需要归一化时,总是新开发一个插件对这 种数据进行特定的处理。但是,基于插件开发的数据归一化方案,开发周期长,调试困难,维护成本高,难于适应环境变化,难于随环境需要提供方便快捷的解决方案,客户化程度低。
技术实现思路
本专利技术的目的在于,提供,解决数据归一化开发调试 困难,成本高,客户化程度低,不容易适应环境变化等需求问题。本专利技术的数据归一化方法,包括下列步骤通过将数据进行数据格式化脚 本文件进行数据格式化,并通过数据映射脚本文件进行数据映射,将数据进行 归一化。其中,所述数据格式化脚本文件,用于按照需要对数据进行灵活的拆分、 组装,最终将数据格式化为统一格式。 其中,所述数据格式化包括如下步骤步骤al:对特定含义的信息元的数据进行处理,获得统一的数据表现形式;步骤a2:数据填充,将经过步骤al处理后的数据填充到相应语义的归一 化数据字段中。在所述步骤al之前,进一步包括如下步骤对数据进行预处理,将原始 数据解析为独立的有特定含义的信息元。其中,在所述步骤al中,对信息元的数据进行处理,将相同类型的数据 处理为统一的格式。在所述步骤a2中,将所述数据填充到相应语义的归一化数据字段中,包 括对数据的匹配、解析、分拆、组合、编排格式的数据处理方法。所述数据映射脚本文件,用于将格式化后的数据在语义表述上进行同一的 映射转换。本专利技术的有益效果是依照本专利技术的数据归一化方法,通过数据格式化脚 本文件,用于按照需要对数据进行灵活的拆分、组装,最终将数据格式化为统 一的样子;通过数据映射脚本文件,用于将格式化后的数据在语义表述上进行 同一的映射转换。由于整个过程都通过脚本的形式进行描述,以大大降低开发、 调试及维护的难度,并提供了极其灵活的环境适应及客户化能力。 附图说明图1为基于文件配置的数据归一化系统。 具体实施例方式以下,参考附图1详细描述本专利技术的数据归一化方法。本专利技术的核心思想是通过编写脚本(Script)来描述数据归一化的过程, 并将过程定义为数据格式化和数据映射两个部分。这两部分的过程分别由数据 格式化脚本文件和数据映射脚本文件来描述,两者皆为文本文件。实际上,脚本就是程序, 一般都是有应用程序提供的编程语言。应用程序 包括浏览器(JavaScript, VBScript )、多媒体创作工具,应用程序的宏和创作 系统的批处理语言也可以归入脚本之类。脚本同平时^f吏用的VB、 C语言的区 别主要是脚本语法比较简单,比较容易掌握;脚本与应用程序密切相关,所 以包括相对应用程序自身的功能;脚本一般不具备通用性,所能处理的问题范 围有限。其中,数据格式化脚本文件,用于按照需要对数据进行灵活的拆分、组装, 最终将数据格式化为统一的样子;数据映射脚本文件,用于将格式化后的数据 在语义表述上进行同一的映射转换。由于整个过程都通过脚本的形式进行描 述,以大大降低开发、调试及维护的难度,并提供了极其灵活的环境适应及客 户化能力。数据格式化脚本以文本的方式描述了数据的格式化过程。一、数据格式化过程包括如下步骤步骤11:数据预处理,将原始数据解析为独立的信息元(有特定含义的 数据单元),该步骤可缺省;步骤12:数据处理,对信息元的数据进行处理,最终获得统一的数据表 现形式;步骤13:数据填充,将经过步骤12处理后的数据填充到相应语义的归一 化数据字段中。整个数据填充处理过程中包括对数据的匹配、解析、分拆、组 合、编排;〖各式等复杂的数据处理方法。其中,在步骤11中,数据预处理是根据将原始数据解析为信息元,即有 特定含义的数据单元,信息元的划分一般与归一化事件字段有关。例如根据不 同的解析程度要求对如下日志进行解析CISCO 交换机UDP 日志<39>233159: *Mar 26 04:04:10: UDP: rcvd<table>table see original document page 6</column></row><table>其中,在步骤12中,数据处理是对信息元的数据进行处理,将相同类型 的数据处理为统一 的格式。例如时间可以有非常多的表现形式,如"Dec 3 11:00:00 2007","2007-12-3 11:00:00"或"Mon Dec 3 11:00:00 CST 2007"等,它们表示的都 是同一个时间,但表现形式上有差別。计算机无法自动的认知这些差别,所以 为了后续的数据表现及数据处理,需要对时间进行格式化,统一其表现形式。 除时间外,还有MAC地址,IP地址等需要格式化的数据类型。除了格式上的 统一外,还需要对数值型数据的度量进行统一,如文件或空间的大小,可能用 兆字节mb、千字节kb或字节byte等任意一个度量做单位,单位的不同会造 成数据的巨大差异,因此也需要对数值型的数据进行度量统一。此外,在步骤13中,数据填充是将经过数据处理的信息元填充到相应语 义的归一化数据字段中。通过正确分析原始数据的整体语义,正确的理解信息 元的含义。例如,即使都是IP地址,但根据语义不同可以区分为源IP地址和目的IP 地址,根据语义可以知道数据是谁发出的等,在确定语义后,将信息元分别填 充到归一化事件相对应得字段中。现有的数据格式化技术会面临如下问题1、 设备/应用类型繁多。现实生活中不同的用户拥有不同类型的设备和应 用(设备如交换机、路由器、防火墙、IDS、 VPN等,应用如WEB服务 器、FTP服务器、邮件服务器、数据库等),这些本文档来自技高网
...

【技术保护点】
一种数据归一化方法,其特征在于,包括下列步骤:通过将数据进行数据格式化脚本文件进行数据格式化,并通过数据映射脚本文件进行数据映射,将数据进行归一化。

【技术特征摘要】

【专利技术属性】
技术研发人员:汤泰鼎
申请(专利权)人:北京天融信网络安全技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1