高可靠性的大数据日志采集与传输方法技术

技术编号：15437519 阅读：61 留言：0更新日期：2017-05-26 03:34

高可靠性的大数据日志采集与传输方法，步骤如下，步骤1设计日志采集架构；设计可以实现并有利于日志采集的平台架构：设有基于能够采集日志和校验日志的系统架构；flume部署至多个数据源上，flume用于采集数据源的日志数据并发送；Kafka作为数据传输模块，部署在网络中心节点；storm和HDFS部署在最终数据汇总的大数据集群上；步骤2数据恢复的流程和算法；保障数据因程序中断或网络中断而重新恢复的流程和算法。步骤3设计文本校验的交互流程和算法。

High reliability large data log collection and transmission method

The steps of high reliability large data log collection and transmission method, the following steps, 1 design log collection framework; design can be implemented and platform architecture: a collection to log to log and check the log collection system architecture based on multiple data sources; flume deployment, flume for log data collection data source and send; Kafka as a data transmission module, the deployment of nodes in the network center; storm and HDFS in the deployment of large data clusters on the final data collection process and algorithm step 2; data recovery; data security or network outages due to interruption of the program and restore the process and algorithm. Step 3 design the interactive process and algorithm of text verification.

全部详细技术资料下载

【技术实现步骤摘要】
高可靠性的大数据日志采集与传输方法
本专利技术涉及数据采集领域，具体而言涉及一种高可靠性的大数据日志采集与传输技术。
技术介绍
数据应用中，数据采集是一个非常重要的环节。而在互联网时代，大量的信息都存储在日志文件中，对用户数据挖掘、系统维护、系统改造都有重大意义。但很多公司的系统分布在不同的物理地点，且每个节点都单独记录日志。因此若需要针对各地数据进行全面综合大数据分析，需要将各地零碎的日志采集至一套大数据平台中。现有技术已经使用flume+kafka+storm构建实时日志分析系统。Flume用于采集数据源、并以管道流方式，提供很多的默认实现，让用户通过参数部署，及扩展API。Kafka是一个可持久化的分布式的消息队列。Kafka是一个非常通用的系统。可以有许多生产者和很多的消费。Storm还是一个分布式的、容错的实时计算系统，由BackType开发，广泛用于进行实时日志处理，实时统计、实时风控、实时推荐等场景中。HDFS是分布式文件系统，HDFS采用单一主控机+多台工作机的模式，由一台主控机(Master)存储系统全部元数据，并实现数据的分布、复制、备份决策。本专利技术通过开源工具kafka、storm、flume以及HDFS搭建了一套大数据日志采集平台，并通过设计数据传输校验流程，保证在日志传输过程中，不会因为网络中断或临时堵塞，或传输程序因为异常中断而导致日志数据传输丢失。该专利技术可以广泛应用到通信、银行、财务、国防、资讯等众多领域。
技术实现思路
本专利技术目的在于，提出一种高可靠性的大数据日志采集与传输方法，能够保证日志数据可以可靠采集。保证在日...

【技术保护点】
高可靠性的大数据日志采集与传输方法，其特征是步骤如下，步骤1设计日志采集架构；设计可以实现并有利于日志采集的平台架构：设有基于能够采集日志和校验日志的系统架构；flume部署至多个数据源上，flume用于采集数据源的日志数据并发送；Kafka作为数据传输模块，(一般)部署在网络中心节点(即可以快速连通各个数据源的服务器)；storm和HDFS部署在最终数据汇总的大数据集群上；设有数据库，用于存储日志文件校验的信息，数据库可以部署在一台独立的服务器上或部署在大数据集群上；日志校验的交互流程和算法步骤：通过数据源发送校验码的方式使大数据集群根据校验码触发校验；通过文本校验的交互流程和算法步骤：通过解析获取校验码中数据源日志文件的行数与大数据集群中已获得的实际行数对比，判断文件是否应该重传；步骤2数据恢复的流程和算法；保障数据因程序中断或网络中断而重新恢复的流程和算法；步骤3设计文本校验的交互流程和算法。

【技术特征摘要】
1.高可靠性的大数据日志采集与传输方法，其特征是步骤如下，步骤1设计日志采集架构；设计可以实现并有利于日志采集的平台架构：设有基于能够采集日志和校验日志的系统架构；flume部署至多个数据源上，flume用于采集数据源的日志数据并发送；Kafka作为数据传输模块，(一般)部署在网络中心节点(即可以快速连通各个数据源的服务器)；storm和HDFS部署在最终数据汇总的大数据集群上；设有数据库，用于存储日志文件校验的信息，数据库可以部署在一台独立的服务器上或部署在大数据集群上；日志校验的交互流程和算法步骤：通过数据源发送校验码的方式使大数据集群根据校验码触发校验；通过文本校验的交互流程和算法步骤：通过解析获取校验码中数据源日志文件的行数与大数据集群中已获得的实际行数对比，判断文件是否应该重传；步骤2数据恢复的流程和算法；保障数据因程序中断或网络中断而重新恢复的流程和算法；步骤3设计文本校验的交互流程和算法。2.根据权利要求1所述的高可靠性的大数据日志采...

【专利技术属性】
技术研发人员：杨庆磊，黄建鹏，房鹏展，陈静，史飞悦，
申请(专利权)人：焦点科技股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人