一种分布式设备日志采集方法技术

技术编号:11729053 阅读:241 留言:0更新日期:2015-07-15 01:49
本发明专利技术公开了一种分布式设备日志采集方法,该方法通过分布式日志处理框架采用中介者模式构建集成化数据中间层,形成集成数据中介管理服务,该数据中介服务采集设备日志进行分布式存储在各分布式存储点上并进行数据连接,若需增加分布式存储点时,采用分布式存储点动态扩展机制实现;本发明专利技术采用中介者模式,构建集成化数据中间层,统一采集、格式化处理日志,集中对分布式数据存储点进行统一管理和调度;采用分表结构,更好的发挥多线程处理的优势,建立独有的分表索引机制,与各数据存储点的MariaDB数据库索引一起,构成超大量数据分级索引体系,同时利用分布式服务器性能优势,极大地提高了日志数据的存储与查询性能。

【技术实现步骤摘要】

本专利技术涉及一种分布式设备日志采集方法,属于计算机系统集成及应用
 
技术介绍
随着网络环境规模的日益扩大,网络中各种设备的数量急剧增加,来自外部和内部的各种安全和攻击也在急剧增加,威胁着网络信息安全。为了不断应对新的安全挑战,企业和组织先后部署了防病毒系统、防火墙、入侵检测系统、漏洞扫描系统、UTM 等等。在这种复杂的安全体系下,安全审计变的极为重要。安全审计的数据基础是防病毒系统、防火墙、入侵检测系统、漏洞扫描系统、UTM、运行主机、交换机、路由器、数据库系统、中间件等日志事件、状态事件和网络数据包信息。在目前的网络环境中,各种设备的日志已经成为海量数据,syslog作为主要的日志类型,被各种操作系统,网络设备和安全设备广泛支持,成为日志的重要标准,对于其他类型的日志,也可以转换为日志格式,便于统一分析。由于目前的日志量极大,因此如何有效地进行处理和存储变得极为重要,在一个中型的企业中,一天的日志量可以达到几十G甚至上百G,而一般要求这些日志至少保持3个月,那么在一个安全审计系统中,这些日志的存储成为最基础和最重要的一环,传统的单点存储方案已经无法满足需求。另外由于日志量极大,日志的高效查询也是一个严重的课题,尤其是在单点存储方案中,对单个数据库在快速存储的同时进行查询,查询效率非常低下。传统的日志存储于查询技术一般采用单点存储方案,限于磁盘I/O性能,在服务器性能和数据库性能达到极限的情况下,也很难满足当前日志量巨大的要求。目前已有的分布式存储技术,往往采用分散存储,单点查询,无法均衡利用各个数据存储点的性能,也无法对全局数据进行综合审计查询。因此需要找到一种更高效率的分布式日志数据存储与查询技术,满足海量日志存储与查询的需求。 
技术实现思路
本专利技术的目的是:提供一种分布式设备日志采集方法,它采用中介者模式,构建集成化数据中间层,统一采集、格式化处理日志,集中对分布式数据存储点进行统一管理和调度;采用分表结构,更好的发挥多线程处理的优势,建立独有的分表索引机制,与各数据存储点的MariaDB数据库索引一起,构成超大量数据分级索引体系,同时利用分布式服务器性能优势,极大地提高了日志数据的存储与查询性能。本专利技术的技术方案一种分布式设备日志采集方法,该方法通过分布式日志处理框架采用中介者模式构建集成化数据中间层,形成集成数据中介管理服务,该数据中介服务采集设备日志进行分布式存储在各分布式存储点上并进行数据连接,若需增加分布式存储点时,采用分布式存储点动态扩展机制实现。前述的分布式设备日志采集方法,所述的分布式日志处理框架为经过格式化后的syslog处理框架,异构的syslog经过格式化后采用统一的事件数据表结构进行存储;syslog协议本身非常简洁高效,单点syslog的采集不会形成瓶颈。其中syslog的格式化方法, syslog格式化字段解析结构如下:<zone indes=\5\ name=ype\ desp=\类型\ analysis=\\ default =\\ ><field match=\^[0,1]\ value=\aa\ /><field match =\^[2-4]\ value =\bb\ /><field match =\^[5-7]\ value =\cc\ /></ zone >其中zone字段定义如下:index:对应第一次提取的字段索引,对应event的Match中的正则表达式的组数,从1开始;name:对应字段名称;analysis:目前针对时间格式,只对时间字段有效;default:对于此字段直接赋值;如果直接采用提取的结果,就不需要配置field,如果需要根据提取的结果作二次提取,需要配置field;field定义如下:match:从已经提取的字段中进行提取该字段的正则表达式;value:字段赋值,根据Match匹配的结果赋值,如果为空,直接采用提取的结果。而数据表结构由基础字段与动态扩展字段组成,其中基础字段包括:  事件ID、事件接收时刻、聚合事件数、关联事件数;   事件名、事件分类、等级、规则名;  对象、方法、意图;   操作、资源、结果;   设备动作、获取方式; 事件原始等级、事件原始类型;  漏洞信息、漏洞编号;  事件原始分类号;   事件产生时刻、事件发送时刻、事件持续时刻;   发送字节数、接收字节数;   协议、应用协议;   源地址、源名称、源端口、目的地址、目的名称、目的端口。基础字段反应了各类IT设备和IT资源日志的基本内容。动态字段的设计如下:动态字段预留6个,全部为varchar类型,长度为1024字节,每个字段存储信息采用XML字串信息 ,格式设计如下:<info num=\5\ description =\备用1\><field  desc=\厂商\ value=\aa\ /><field  desc =\产品\ value =\bb\ /><field  desc =\模块名\ value =\cc\ /><field  desc =\进程名\ value =\dd\ /><field  desc =\软件版本\ value =\ee\ /></info >其中info的含义如下:num:表示该字段包含的动态子字段个数;description:表示该扩展字段的显示名称;动态子字段field 定义如下:desc:字段显示名value:字段值通过基础字段和动态字段相结合的数据表结构,可以充分适应复杂IT环境下日志信息的格式化和存储。前述的分布式设备日志采集方法,所述集成化数据中间层独立运行于高性能服务器上,主要负责日志进行采集、格式化、缓存并分发存储于分布式存储节点上,同时,针对分布式存储日志的检索也通过集成化数据中间层实现,异构的syslog经过格式化后采用统一的事件数据表结构进行存储,数据中间层建立事件分表索引,当存储一条syslog数据时,数据中间层会检查分表索引确定该数据所需要存入的存储点,并调用该存储点对应的线程进行高效存储。当对数据发起查询请求时,数据中间层会检索分表索引获取所查询信息所在的存储点,并调用对应的线程进行查询。前述的分布式设备日志采集方法,所述分布式数据存储点是通过MariaDB开源存储引擎建立;存储节点运行于较低性能的服务器上,分布式存储节点之间不进行通讯,。前述的分布式设备日志采集方法,集成化数据中间层采用JDBC协议对各分布式数据存储节点进行连接,每个本文档来自技高网
...

【技术保护点】
一种分布式设备日志采集方法,其特征在于:该方法通过分布式日志处理框架采用中介者模式构建集成化数据中间层,形成集成数据中介管理服务,该数据中介服务采集设备日志进行分布式存储在各分布式存储点上并进行数据连接,若需增加分布式存储点时,采用分布式存储点动态扩展机制实现。

【技术特征摘要】
1.一种分布式设备日志采集方法,其特征在于:该方法通过分布式日志处理框架采用中介者模式构建集成化数据中间层,形成集成数据中介管理服务,该数据中介服务采集设备日志进行分布式存储在各分布式存储点上并进行数据连接,若需增加分布式存储点时,采用分布式存储点动态扩展机制实现。
2.根据权利要求1所述的分布式设备日志采集方法,其特征在于:所述的分布式日志处理框架为经过格式化后的syslog处理框架,异构的syslog经过格式化后采用统一的事件数据表结构进行存储。
3.根据权利要求1所述的分布式设备日志采集方法,其特征在于:所述集成化数据中间层独立运行于高性能服务器上,主要负责日志进行采集、格式化、缓存并分发存储于分布式存储节点上,同时,针对分布式存储日志的检索也通过集成化数据中间层实现。
4.根据权利要求1所述的分布式设备日志采集方法,其特征在于:所述分布式数据存储点是通过MariaDB开源存储引擎建立;存储节点运行于较低性能的服务器上,分布式存储节点之间不进行通讯。
5.根据权利要求1所述的分布式设备日志采集方法,其特征在于:集成化数据中间层采用JDBC协议对各分布式数据存储节点进行连接,每个数...

【专利技术属性】
技术研发人员:王皓然文才豪
申请(专利权)人:贵州电网公司信息通信分公司
类型:发明
国别省市:贵州;52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1