一种基于分布式的海量日志采集系统技术方案

技术编号：10418526 阅读：116 留言：0更新日期：2014-09-12 10:37

本发明专利技术公开了一种基于分布式的海量日志采集系统，该系统包括数据源层、分布式缓存层、分布式存储与计算层、业务处理层、可视化展示层和统一调度与管理模块。通过本发明专利技术能够有效应对日志采集与高速入库的问题，同时，使用分布式存储与搜索引擎技术，加快查找与检索的速度，从而实现了高速、准确、可靠地对海量日志进行采集与分析。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分布式的海量日志采集系统
本专利技术涉及计算机
，尤其涉及一种基于分布式的海量日志采集系统。
技术介绍
随着云计算、移动互联网、物联网的崛起与发展，大数据的时代已经来临。对大数据业务系统进行日志采集与分析，是评价节点主机健康度、对系统出现的问题进行分析、展示各类报表的依据所在。开源的海量日志解决方案有很多，例如FaceBook的Scribe、Apache的Chukwa> LinkedIn的Kafka、Cloudera的Flume等，也有综合的解决方案，例如Kibana+Elasticsearch+LogStash、LogAnalyzer+MySQL+RSyslog> Splunk0 这些角军决方案，他们都具备三个基本组件，分别为agent、collector和store,其中agent封装数据源,将数据源中的数据发送给collector，collector接收多个agent的数据，并进行汇总后导入后端的store中，store为中央存储系统，应该具有可扩展性和可靠性，应该支持当前非常流行的HDFS。agent必须安装部署在进行日志采集的主机上面，还要配置相关参数以确定collector所在主机的位置。但是该方法中服务器端的安装部署比较麻烦，大部分都需要使用源代码进行编译安装，而且，开源的软件基本是国外的软件，由于中国大陆对国外大部分网站的封锁以及国外某些网站对中国的封锁，因此，有可能下载依赖软件的时候，会出现拒绝连接的问题。Storm是一个实时流计算框架，可以以近实时的速度对输入源进行处理，然后输出。Storm具有如下...

【技术保护点】
一种基于分布式的海量日志采集系统，其特征在于，该系统通过在目标主机上安装Agent进程，对目标主机的文本、应用程序、数据库等日志信息进行有选择地定向推送到服务器集群的统一访问接口，服务器端采用了分布式缓存与实时流处理框架技术；该系统包括数据源层、分布式缓存层、分布式存储与计算层、业务处理层、可视化展示层和统一调度与管理模块；数据源层，由数据采集组件(生产者)模块对各个节点上面的文本、应用程序、数据库等进行采集，推送到分布式缓存层；分布式缓存层，由LVS对各个节点的消息队列组件进行负载均衡，提供一个统一的接口来接收并写入数据源节点推送过来的数据，等待分布式存储与计算层的数据采集组件(消费者)来读取；分布式存储与计算层，提供存储与计算的功能，包括数据采集组件(消费者)模块、离线计算模块、实时计算模块、分布式存储和搜索引擎；其中，数据采集组件(消费者)模块负责对分布式缓存层进行数据读取；离线计算模块由Hadoop及其生态系统组成；实时计算模块由Storm组成；业务处理层，提供统计分析和数据挖掘的功能与服务，由上层进行调用；可视化展示层，提供普通查询、全文检索、报表展示、导入导出等功能；统一调...

【技术特征摘要】
1.一种基于分布式的海量日志采集系统，其特征在于，该系统通过在目标主机上安装Agent进程，对目标主机的文本、应用程序、数据库等日志信息进行有选择地定向推送到服务器集群的统一访问接口，服务器端采用了分布式缓存与实时流处理框架技术；该系统包括数据源层、分布式缓存层、分布式存储与计算层、业务处理层、可视化展示层和统一调度与管理模块；数据源层，由数据采集组件(生产者)模块对各个节点上面的文本、应用程序、数据库等进行采集，推送到分布式缓存层；分布式缓存层，由LVS对各个节点的消息队列组件进行负载均衡，提供一个统一的接口来接收并写入数据源节点推送过来的数据，等待分布式存储与计算层的数据采集组件(消费者)来读取；分布式存储与计算层，提供存储与计算的功能，包括数据采集组件(消费者)模块、离线计算模块、实时计算模块、分布式存储和搜索引擎；其中，数据采集组件(消费者)模块负责对分布式缓存层进行数据读取；离线计算模块由Hadoop及其生态系统组成；实时计算模块由Storm组成；业务处理层，提供统计分析和数据挖掘的功能与服务，由上层进行调用；可视化展示层，提供普通查询、全文检索、报表展示、导入导出等功能；统一调度与管理模块，对上述5层进行统一的调度与管理，基于工作流，自动化处理。2.根据权利要求1所述的系统，其特征在于，该系统的数据源层、分布式缓存层、分布式存储与计算层的实时计算模块和分布式存储模块、统一调度与管理模块是分布式日志采集系统的核心部分，即数据采集子系统，其包括数据源层、分布式缓存层、数据处理层和持久化层，其可以独立出来成为一个新的系统；其中，数据源层即分布式日志采集系统的数据源层；分布式缓存层即分布式日志采集系统的分布式缓存层；数据处理层即分布式日志采集系统的分布式存储与计算层的实时计算模块和统一调度与管理模块；持久化层即分布式日志采集系统的分布式存储与计算层的分布式存储模块。3.根据权利要求2所述的系统，其特征在于，数据源层，包括很多的数据节点主机，每个主机上都安装了数据采集组件(生产者)模块，会启动Agent进程来负责接收服务端的采集指令，把本节点的文本、应用程序、数据库等数据推送到服务器集群中的统一访问接口中；分布式缓存层，位于服务器集群里面，其主要由LVS负责把数据自动转发到Kafka集群中的...

【专利技术属性】
技术研发人员：杨育斌，柯宗贵，赵必厦，
申请(专利权)人：蓝盾信息安全技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人