一种基于变长记录的安全日志压缩存储和检索方法技术

技术编号:20044867 阅读:26 留言:0更新日期:2019-01-09 04:08
本发明专利技术涉及一种基于变长记录的安全日志压缩存储和检索方法,所述方法包括以下步骤:步骤一:站点页面地图生成;步骤二:页面快照制作;步骤三:页面敏感字词的抽取和比对;步骤四:页面特征对比学习;步骤五:高频页面监测;步骤六:低频页面监测;步骤七:备份余恢复机制。该方法充分地利用了历史上对日志的解析结果,获取各类设备的不同模式在整体上的分布情况,为压缩编码提供实际依据。

【技术实现步骤摘要】
一种基于变长记录的安全日志压缩存储和检索方法
本专利技术涉及一种方法,具体涉及一种基于变长记录的安全日志压缩存储和检索方法,属于日志存储管理

技术介绍
日志(Log);一般而言,所谓日志是由各类网络系统、安全系统、操作系统、数据库系统、应用系统等生成的,能够记录相关系统运行状态的数据集,它可以成为对相关行为追溯的关键信息;日志可以被划分为若干类别以区分之间的不同,如用户登录、网络连接、主机进程运行等;相关划分依据可参见国家标准。日志审计管理系统(LogAuditandManagementSystem);日志审计管理系统一般是用以收集相关日志信息并进行存储、统计及关联等处理;日志审计管理系统的日志收集方式主要包括两种模式:被动方式:如Syslog、SNMPTrap、Netflow/sflow、交换机镜像等主动方式:WMI方式(主要用于Windows)、数据库主动连接等这类系统又被称作SIEMS(SecurityInformationEventManagementSystem),国际上的代表产品包括HPArcsight、Splunk等;国内主要的安全厂商均提供类似的系统。自有日志审计管理系统这类产品以来,日志的压缩存储、检索就一直是核心问题,而且一般都经历过相似的发展过程,如最初的日志信息被存储在关系型数据库(RDBMS)中,如Oracle、Sybase或MicrosoftSQLServer等,使用关系型数据的优点和缺点都是非常明确的,其优点主要是编程、查询接口简单,但其缺点也非常明显,主要就是使用此类技术无法应对日益增长的数据数量,特别是在当前大数据时代则完全是无法使用的,因为关系型数据在处理海量数据有着天然的劣势,其在每日上几十亿的数据面前表现的无能为力。目前,主流的日志审计管理系统均是采用NoSQL方式来存储和检索相关日志信息,如采用Hadoop、ElasticSearch等,但随之带来的问题是巨量日志的存储也消耗了大量的磁盘存储,毕竟需要投入大量资金在存储的采购上,而且写入磁盘的数据越多则越约或延迟系统的性能,其主要原因是I/OWait较大,故长久以来日志的压缩存储及从压缩数据中还原数据就成为此类系统的主要议题;业界一般对于此类问题主要有以下两种压缩方法(当然还有其它方式,但并非主流技术):采用通用压缩方法:即对冷数据(ColdData,如一个月前)或温数据(WarmData,一般为7日前)采用通用的数据压缩方式,如RAR、ZIP、GZIP等进行压缩;采用此方法的好处在于由于方法是通用的,故不需要附加过多编码,可以快速实现数据压缩功能而且可以视情况采用不同的压缩比,但其问题也是比较明显的,即在使用这些冷数据或温数据时需要预先解压缩,这需要消耗一定时间,对用户的影响较大,而且在数据压缩和解压时均需消耗大量的CPU时间;采用模式编码方法:目前比较先进的日志管理系统均采用类似技术,其主要思想是由于在日志中存在大量重复的数据,系统对这些数据采用一些固定的编码以压缩数据的存储,不过基本的方法均在于对原始日志的分词(一般使用英文分词),然后对词频进行统计,根据词频生成不同的编码,编码可采用定长(2字节)或变长方式(1字节或2字节),但这类方式其实对于CPU的消耗仍然比较巨大,另外在导出这些原始日志时,还原的操作也会消耗大量CPU的计算资源;另外此种方法在处理超长日志且仅含少量变化部分的数据或含有大量短单词时,其压缩率仍然不高,具体可参见下文中的相关内容。公开号为CN201610319121.1(日志压缩方法及装置)公开了一种基于分词词频日志变长存储方法,包括以下步骤:获取包含日志记录的文件;根据日志记录输出优先级遍历所述文件,分别以唯一的编号替代所述文件中每一所述日志记录的字符串,得到已替代日志记录;对所述已替代日志记录进行共时段日志共时间戳编码处理,得到压缩后的日志。本专利技术利用日志记录输出优先级遍历所有包含日志记录的文件,分别以唯一的编号替代文件中各条日志记录的字符串,从而减少了字符串所占的字节数,提升了日志的压缩比,同时对字符串替代后的日志记录进行共时段日志共时间戳编码处理,有效降低了日志记录的时间戳信息在日志内容中的比重,进一步提高了日志压缩比和压缩效率。其本质仍然是基于对原始日志的分词,与本专利技术存在一些本质的不同。公开号为CN201410283777.3(日志压缩方法及装置、解压缩方法及装置)公开了一种日志压缩方法及装置、解压缩方法及装置,所述日志压缩方法包括:读取所述日志中的记录;将所述日志的记录按照字段进行存放,在所存放的记录的字段中添加所述记录在所述日志中的位序信息;通过将所述日志中记录的所述字段的字符串分别与所选取的基准记录的所述字段中的字符串进行比较,将所述日志中记录的所述字段的字符串进行合并处理,得到合并字符串;创建压缩文件,所述压缩文件包括所述压缩文件的头信息;将所得到的合并字符串进行压缩,并将压缩后的合并字符串按照所述字段在所述记录的位置顺序依次添加到所创建的压缩文件中。但其在日志压缩和解压时均需和基准记录进行比较,在实际操作中可能存在CPU资源消耗过大的问题;另外,这种方法需要在各个字段间加入字段分隔符号,这会导致最终日志存储的尺寸增加。因此,迫切的需要一种新的方案解决上述技术问题。
技术实现思路
本专利技术正是针对现有技术中存在的技术问题,提供一种基于变长记录的安全日志压缩存储和检索方法,该方法充分地利用了历史上对日志的解析结果,获取各类设备的不同模式在整体上的分布情况,为压缩编码提供实际依据。为了实现上述目的,本专利技术的技术方案如下:一种基于变长记录的安全日志压缩存储和检索方法,所述方法包括以下步骤:步骤1:搭建日志收取环境;步骤2:获取日志中模式分布数据;步骤3:对模式中的固定部份进行变长编码;步骤4:建立固定模式中的单词索引;步骤5:对模式中的变化部分进行变长编码并建立索引;步骤6:根据固定部份和变长部份进行日志的还原;步骤7:根据固定部份和变长部份及与索引关系进行检索。作为本专利技术的一种改进,所述步骤1,搭建日志收取环境;具体如下,首先,对于一条日志的模式识别是基于它来源于哪种系统或设备,再通过这种系统或设备所包含的模式对其进行匹配和抽取,匹配和抽取的工具均是基于PCRE即一种被广泛使用的正则表达式库的,日志来源的系统或设备是由用户在系统界面上进行配置,其配置的主要输入项就是来源的IP地址,通过Syslog服务器获取的源IP。作为本专利技术的一种改进,所述步骤2:获取日志中模式分布数据具体如下:对历史上相关原始日志的解析情况进行统计和分析,对于每种设备及其相关模式的占比情况标注比率(百分比);标注的方法就是先分设备再分模式,某一种设备的所有模式累加为100%。作为本专利技术的一种改进,所述步骤3:对模式中的固定部份进行变长编码具体如下,通过观察可以发现一般某类设备或系统的日志具有较大的模式命中概率,故对此类日志的来源系统编码为0x01,其模式在系统中目前为125个,故一个字节即能支持所有模式的编码;具体如下:对于一个某类系统的登录日志而言(它一般含有固定标识‘login’等固定模式),根据以上原则,由于其在日志中占比最高,故将其定位为此类系统或设备的第一个模式,其固定模式编本文档来自技高网
...

【技术保护点】
1.一种基于变长记录的安全日志压缩存储和检索方法,其特征在于,所述方法包括以下步骤:步骤1: 搭建日志收取环境;步骤2:获取日志中模式分布数据;步骤3:对模式中的固定部份进行变长编码;步骤4:建立固定模式中的单词索引;步骤5:对模式中的变化部分进行变长编码并建立索引;步骤6:根据固定部份和变长部份进行日志的还原;步骤7:根据固定部份和变长部份及与索引关系进行检索。

【技术特征摘要】
1.一种基于变长记录的安全日志压缩存储和检索方法,其特征在于,所述方法包括以下步骤:步骤1:搭建日志收取环境;步骤2:获取日志中模式分布数据;步骤3:对模式中的固定部份进行变长编码;步骤4:建立固定模式中的单词索引;步骤5:对模式中的变化部分进行变长编码并建立索引;步骤6:根据固定部份和变长部份进行日志的还原;步骤7:根据固定部份和变长部份及与索引关系进行检索。2.根据权利要求1所述的基于变长记录的安全日志压缩存储和检索方法,其特征在于,所述步骤1,搭建日志收取环境;具体如下,首先,对于一条日志的模式识别是基于它来源于哪种系统或设备,再通过这种系统或设备所包含的模式对其进行匹配和抽取,匹配和抽取的工具均是基于PCRE即一种被广泛使用的正则表达式库的,日志来源的系统或设备是由用户在系统界面上进行配置,其配置的主要输入项就是来源的IP地址,通过Syslog服务器获取的源IP。3.根据权利要求2所述的基于变长记录的安全日志压缩存储和检索方法,其特征在于,所述步骤2:获取日志中模式分布数据具体如下:对历史上相关原始日志的解析情况进行统计和分析,对于每种设备及其相关模式的占比情况标注比率即百分比;标注的方法就是先分设备再分模式,某一种设备的所有模式累加为100%。4.根据权利要求3所述的基于变长记录的安全日志压缩存储和检索方法,其特征在于,所述步骤3:对模式中的固定部份进行变长编码具体如下,对于一个某类系统的登录日志而言,由于其在日志中占比最高,故将其定位为此类系统或设备的第一个模式,其固定模式编码为0x0101;而变化部分分别是日期时间、登录用户名、登录源IP地址及登录的源端口;每种模式中变化的部分需被从原始日志中抽取,抽取的模式数量可以根据正则表达式获得。5.根据权利要求4所述的基于变长记录的安全日志压缩存储和检索方法,其特征在于,所述步骤4:建立固定模式中的单词索引,具体如下,建立固定模式编码和其分词的索引关系;针对登录日志,抽取其中诸如login、sshd(登录方式)、Accepted(接受登录)、password、port(源端口)固定部分建立索引。6.根据权利要求1所述的基...

【专利技术属性】
技术研发人员:陈虎唐开达
申请(专利权)人:南京聚铭网络科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1