一种高效鲁棒的大数据安全聚合系统与方法技术方案

技术编号:13703616 阅读:281 留言:0更新日期:2016-09-11 23:45
本发明专利技术提供一种高效鲁棒的大数据安全聚合方法,该高效鲁棒的大数据安全聚合方法将移动设备日志数据通过接口发送至网日志收集服务器,每一个网日志收集服务器上设置一个Flume Agent进程;Flume Agent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上;数据进入中心服务器并写入磁盘,外网磁盘存储的日志数据通过GAP传至内网中。该方法借助开源软件Apache Flume收集海量的日志数据,采用Flume的Kafkachannel作为数据汇聚方式,既能够保证数据收集的高效性,同时保证数据不会应为单点故障而丢失,较Flume的memorychannel和filechannel具有明显的优势。海量日志数据落入磁盘后,通过自定义接口实现Hdfs录入,已经达到百兆每秒,逼近传统百兆带宽瓶颈接近磁盘转速。

【技术实现步骤摘要】

本专利技术涉及大数据安全领域,尤其涉及一种基于Flume不同网域间海量日志数据传输的高效、稳定、可靠方法。
技术介绍
随着网络信息发展,网络信息安全开始成为一些安全涉密部门越来越侧重的方面,尤其是政府、公安、银行等部门。因此,探索出一种隔离内外网络维护内网安全,又能保证高效、可靠、稳定的海量日志数据内外网传输收集,能够为金融、银行以及国家相关安全行业的高速发展带来有效保障。由GAP(安全隔离网闸)可以通过专用硬件在不同网域和逻辑间实现传输,能够在一定程度上增加内网数据通信交互的安全性,但是在应对海量数据传输吞吐时存在劣势。此外,海量数据在传输过程中完整性、重复性、时效性没有一个完善的策略,不能提供一个可靠、安全的维护方法。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于以上问题,本专利提出一种基于Flume针对不同网域间海量日志数据传输的高效、稳定、可靠方法。Flume框架做为采集终端, Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。为实现上述目的及其他相关目的,本专利技术提供一种高效鲁棒的大数据安全聚合方法,其包括如下步骤:(1)外网移动设备日志数据通过接口发送至外网日志收集服务器,每一个外网日志收集服务器上设置一个Flume Agent进程,负责外网日志文件数据的分类收集;(2)Flume Agent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上;(3)数据进入中心服务器再通过Flume消费至磁盘,将磁盘存储的日志数据通过GAP跨网域传输至内网中;(4)内网移动设备日志数据通过接口发送至内网日志收集服务器,每一个内网日志收集服务器上设置一个Flume Agent进程,负责内网日志文件数据的分类收集;(5)内网的日志数据汇聚以后,日志数据会分别经过Flume消费写入内网磁盘;(6)内外网日志数据通过跨网域传输系统,最后落入hdfs分布式文件系统。优选地,Flume Agent进程采用Kafkachannel方式进行数据汇聚采集。优选地,步骤(5)中,内网中的日志数据会分别经过Flume消费写入内网磁盘后需进行storm实时分析。本专利技术还公开了一种高效鲁棒的大数据安全聚合系统,其包括:外网移动设备日志数据采集单元,所述外网移动设备日志数据采集单元将外网移动设备日志数据通过接口发送至外网日志收集服务器,每一个外网日志收集服务器上设置一个Flume Agent进程,负责外网日志文件数据的分类收集;外网数据写入单元,所述外网数据写入单元用于将Flume Agent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上的数据写入外网磁盘;安全隔离网闸GAP,所述安全隔离网闸GAP用于将写入外网磁盘的日志数据传至内网中;内网移动设备日志数据采集单元,所述内网移动设备日志数据采集单元将内网移动设备日志数据通过接口发送至内网日志收集服务器,每一个内网日志收集服务器上设置一个Flume Agent进程,负责内网日志文件数据的分类收集;内网数据写入单元,所述内网数据写入单元用于将内网的日志数据汇聚后,将日志数据会分别经过Flume消费写入内网磁盘;跨网域传输单元,所述跨网域传输单元用于将内外网日志数据通过跨网域传输系统,最后落入hdfs分布式文件系统。如上所述,本专利技术的高效鲁棒的大数据安全聚合系统与方法具有以下有益效果:本专利技术是面向大数据日志的一种高效可靠传输系统,借助开源软件Apache Flume收集海量的日志数据,采用Flume的Kafkachannel作为数据汇聚方式,既能够保证数据收集的高效性,同时保证数据不会应为单点故障而丢失,较Flume的memorychannel和filechannel具有明显的优势。GAP(安全隔离网闸)同样确保了外网日志数据单向跨域传输的安全性。海量日志数据落入磁盘后,通过自定义接口实现Hdfs录入,已经达到百兆每秒,逼近传统瓶颈接近磁盘转速。附图说明图1为本专利技术实施例的系统框图。图2为本专利技术实施例的流程图。图3为本专利技术实施例的Flume Kafkachannel收集方式的示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。请参阅图1至图3。需要说明的是,本实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。如图1所示,本专利技术提供一种依托于分布式采集Flume实现海量日志数据跨区域单项传输系统,该数据系统主要分为内外网数据采集以及一个数据落地磁盘模块,整个传输系统架构方案如图1所示。针对外网日志数据收集,海量终端日志数据经过Flume Agent分类收集数据至kafkachannel中,能够避免memorychannel故障致使数据丢失以及filechannel汇聚收集数据速率慢等;最后通过kafka统一录入磁盘中。内外网区别在于外网需要通过GAP(安全隔离网闸)跨网域单向传入内网磁盘系统,最后录入hadoop集群。本专利技术是面向海量日志数据的高效可靠传输系统,分内外数据收集和持久化至分布式文件系统Hdfs三个模块。内外网日志数据收集采用现下流行的Apache开源的Flume,它是一个分布式海量日志传输聚合系统,具有可靠、高效等优势,同时在系统支持定制化各类的数据发送方。Flume在数据传输过程中存在一些策略,可靠性是当出现单点故障时,日志就会被传至其余节点上而不会丢失。Flume还提供了end-to-end、store on failure、Best effort三种级别的可靠保障:end-to-end模式会在接受到agent发送数据,会先将event写入磁盘,当数据传输成功后才会删除,若果失败就会重新传送;store on failure则在数据crash时写入本地等待恢复,然后再继续传输;最后Best effort数据传输不会通过校验。上述三种方式可靠性由强到弱,但是传输效率由弱到强。Flume的可扩展性,采用三层架构agent-collect-storage,这里传输系统只用前两层,它的扩展性是说明每一层水平可扩展。传输系统在内外网日志收集时,首先需要在每台日志服务器上安装一个Flume Agent,负责该台设备上日志数据的收集。内容的分类通过上传日志的文件名,这里不作区别对待。在汇聚过程中,采用的是Flume Kafkachannel进行收集的,如图3是Flume_agent传输数据至Flume_collect多台机器上。为了保证负载均衡采用LoadBalanece策略将Agent所有日志数据均衡发送至collect中心服务器上。Kafkachannel作为Flume收集方式之一,k本文档来自技高网...

【技术保护点】
一种高效鲁棒的大数据安全聚合方法,其特征在于,其包括如下步骤:(1)外网移动设备日志数据通过接口发送至外网日志收集服务器,每一个外网日志收集服务器上设置一个Flume Agent进程,负责外网日志文件数据的分类收集;(2)Flume Agent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上;(3)数据进入中心服务器再通过Flume消费至磁盘,将磁盘存储的日志数据通过GAP跨网域传输至内网中;(4)内网移动设备日志数据通过接口发送至内网日志收集服务器,每一个内网日志收集服务器上设置一个Flume Agent进程,负责内网日志文件数据的分类收集;(5)内网的日志数据汇聚以后,日志数据会分别经过Flume消费写入内网磁盘;(6)内外网日志数据通过跨网域传输系统,最后落入hdfs分布式文件系统。

【技术特征摘要】
1.一种高效鲁棒的大数据安全聚合方法,其特征在于,其包括如下步骤:(1)外网移动设备日志数据通过接口发送至外网日志收集服务器,每一个外网日志收集服务器上设置一个Flume Agent进程,负责外网日志文件数据的分类收集;(2)Flume Agent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上;(3)数据进入中心服务器再通过Flume消费至磁盘,将磁盘存储的日志数据通过GAP跨网域传输至内网中;(4)内网移动设备日志数据通过接口发送至内网日志收集服务器,每一个内网日志收集服务器上设置一个Flume Agent进程,负责内网日志文件数据的分类收集;(5)内网的日志数据汇聚以后,日志数据会分别经过Flume消费写入内网磁盘;(6)内外网日志数据通过跨网域传输系统,最后落入hdfs分布式文件系统。2.根据权利要求1所述的高效鲁棒的大数据安全聚合方法,其特征在于:Flume Agent进程采用Kafkachannel方式进行数据汇聚采集。3.根据权利要求1所述的高效鲁棒的大数据安全聚合方法,其特征在于:内网中的日志数据会分别经过Flume消费写...

【专利技术属性】
技术研发人员:张宏斌朱斌邵官阁
申请(专利权)人:江苏飞搏软件股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1