一种超算环境下的海量数据实时采集与处理方法技术

技术编号：19215573 阅读：213 留言：0更新日期：2018-10-20 06:40

本发明专利技术公开了一种超算环境下的海量数据实时采集与处理方法，首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集，然后通过flume软件将收集到的消息源汇集到Kafka软件中，消息源以Kafka软件为缓冲进行存储，通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理，从而实现超算环境下的海量数据实时采集与处理，从而实现超算环境下的海量数据实时采集与处理，使用kafka来作为中间的缓冲作用，提高了数据可靠性，基于kafka的分布式消息订阅系统可以有多个消息生产者和多个消费者的方式，这样保证了系统消息的高可用性，结合docker容器化技术和负载均衡技术完成容器编排和管理，能够应用于真实的分布式数据收集、实时处理并可扩充的超大集群环境。

全部详细技术资料下载

【技术实现步骤摘要】
一种超算环境下的海量数据实时采集与处理方法
本专利技术涉及了在超级计算中心环境下的海量数据采集和处理软件架构，尤其涉及到一种高并发、高可用、数据安全性和完备性要求下的的海量数据实时采集和处理框架。应用了流式处理数据处理技术、分布式消息订阅技术、分布式存储技术构建了一个从海量数据采集到处理的平台。
技术介绍
随着我国创新驱动战略的实施和工业转型升级及两化深度融合的不断推进，工业产品研发得到了前所未有的重视。中国科技部提出：依托国家高性能计算环境，结合互联网和云计算等技术，聚合工业开发社区所需的高性能计算、存储、应用软件、可视化、数据等资源培育形成基于国家高性能计算和服务环境的工业社区产品创新的生态环境。超算环境下的复杂计算作业产生数据量巨大，应用程序对数据采集的完备性和处理实时性的要求越来越高。然而对于十分庞大的计算节点构建的超算环境下常见的数据采集工具已经无法满足数据采集和处理的可靠性要求，数据生成的速度过快会产生数据丢失现象，而且存储元数据的节点宕机后会对整个系统的安全性造成影响。
技术实现思路
本专利技术的目的在于提供一种超算环境下的海量数据实时采集与处理方法，以克服现有技术的不足。为达到上述目的，本专利技术采用如下技术方案：一种超算环境下的海量数据实时采集与处理方法，包括以下步骤：首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集，然后通过flume软件将收集到的消息源汇集到Kafka软件中，消息源以Kafka软件为缓冲进行存储，最后通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理，从而实现超算环境下的...

【技术保护点】
1.一种超算环境下的海量数据实时采集与处理方法，其特征在于，包括以下步骤：首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集，然后通过flume软件将收集到的消息源汇集到Kafka软件中，消息源以Kafka软件为缓冲进行存储，最后通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理，从而实现超算环境下的海量数据实时采集与处理。

【技术特征摘要】
1.一种超算环境下的海量数据实时采集与处理方法，其特征在于，包括以下步骤：首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集，然后通过flume软件将收集到的消息源汇集到Kafka软件中，消息源以Kafka软件为缓冲进行存储，最后通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理，从而实现超算环境下的海量数据实时采集与处理。2.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，使用开分布式的海量日志采集、聚合和传输的系统flume作为数据源端的采集工具，通过Flume对数据进行简单处理，并写到各种数据接受方。3.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，数据源端包括console、RPC、text、tail、spooldir及syslog，数据源端支持TCP和UDP2种模式。4.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，Kafka软件采用分布式消息订阅系统，即有多个消息生产者和多个消费者，kafka软件将接收到的消息源存入到kafka软件的磁盘数据结构的持久化中去供后端能处理端的消息来处理。5.根据权利要求4所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，Spark软件通过SparkStream来消费Ka...

【专利技术属性】
技术研发人员：伍卫国，张祥俊，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人