数据处理系统及方法技术方案

技术编号:24176032 阅读:30 留言:0更新日期:2020-05-16 04:40
本申请提供一种数据处理系统及方法,涉及数据处理技术领域,包括:Beats、Kafka集群、Logstash集群、Elasticsearch集群以及Kibana,其中,Kafka集群,用于接收Beats的采集数据;为采集数据按照所属的Topic确定用于存储采集数据的指定partition;并将采集数据发送给订阅Topic的Logstash集群中的服务器,并通过offset记录服务器在partition的已消费数据的消费进度;且当数据处理系统出现故障需要恢复数据时,根据记录的offset更新Logstash集群中的服务器的数据。通过该方式处理数据,提高了数据的恢复效率。

Data processing system and method

【技术实现步骤摘要】
数据处理系统及方法
本申请涉及数据处理
,尤其涉及一种数据处理系统及方法。
技术介绍
相关技术中,许多企业都会通过部署ELK+Beats(ELK是Elasticsearch、Logstash、Kibana三大开源框架首字母大写简称)架构来满足存储和分析数据的需求,如图1所示,Beats(采集代理)分别部署在不同的服务器上收集数据,并发送至Logstash集群(收集和解析服务器),Logstash集群对数据进行解析后发送到Elasticsearch集群(搜索服务器),最后通过Kibana(展示平台)展示数据。然而Logstash集群向Elasticsearch集群发送数据时,一旦发生数据解析时间过长、字段类型冲突、网络连接中断等现象,会导致数据丢失或被遗弃。故而需要技术人员登录每一台与数据相关的服务器,停掉Beats并修改相关配置信息,使其重新采集历史数据,以保证数据的完整性。通过该方式进行数据恢复,费时费力。
技术实现思路
本申请实施例提供一种数据处理系统及方法,用以解决相关技术中数据恢复效率低的技术问题。第一方面本申请实施例提供数据处理系统,包括:采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana,其中:所述Kafka集群,用于接收所述Beats的采集数据;为所述采集数据按照所属的主题Topic确定用于存储所述采集数据的指定分区partition;并将所述采集数据发送给订阅所述Topic的所述Logstash集群中的服务器,并通过读取进度offset记录所述服务器在所述partition的已消费数据的消费进度;且当所述数据处理系统出现故障需要恢复数据时,根据记录的所述offset更新所述Logstash集群中的所述服务器的数据;所述Logstash集群的各服务器,用于从所述Kafka集群获取订阅的采集数据;将所述采集数据及其对应指定参数发送给所述Elasticsearch集群;所述指定参数包括所述采集数据的:主题Topic、指定分区partition以及读取进度offset;所述Elasticsearch集群,用于接收所述Logstash集群发送的采集数据及其对应指定参数;将所述采集数据及其对应的指定参数发送至所述Kibana;所述Kibana,用于响应于在展示界面实施的用户操作,展示用户指定数据的分析结果;所述分析结果中包括所述用户指定数据在各时间段的数据量分布、所述用户指定数据的最新一条采集数据对应的主题Topic、指定分区partition及其读取进度offset。第二方面本申请实施例提供数据处理方法,应用于数据处理系统,所述数据处理系统中包括:采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana;所述Beats作为消息生产者,将采集的信息发送给所述Kafka集群,所述Logstash集群中的各服务器作为消息消费者,用于从所述Kafka集群中获取订阅的消息,所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果,所述方法应用于所述数据处理系统的所述Kafka集群,所述方法包括:接收所述Beats的采集数据;为所述采集数据按照所属的Topic(主题)确定用于存储所述采集数据的指定partition(分区);并将所述采集数据发送给订阅所述Topic的所述Logstash集群中的服务器,并通过offset(读取进度)记录所述服务器在所述partition的已消费数据的消费进度;当所述数据处理系统出现故障需要恢复数据时,根据记录的所述offset更新所述Logstash集群中的所述服务器的数据。在一个实施例中,所述当所述数据处理系统出现故障需要恢复数据时,根据记录的所述offset更新所述Logstash集群中的所述服务器的数据,包括:接收到所述Logstash集群中的所述服务器的重新上线通知后,确定记录的所述Logstash集群中的所述服务器针对所述partition的已消费数据的offset;根据确定的所述offset开始,向所述Logstash集群中的所述服务器发送其订阅的数据。第三方面,本申请实施例提供一种数据处理方法,应用于数据处理系统,所述数据处理系统中包括:采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana;所述Beats作为消息生产者,将采集的信息发送给所述Kafka集群,所述Logstash集群中的各服务器作为消息消费者,用于从所述Kafka集群中获取订阅的消息,所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果,所述方法应用于所述数据处理系统的所述Logstash集群的各服务器,所述方法包括:从所述Kafka集群获取订阅的采集数据;将所述采集数据及其对应指定参数发送给所述Elasticsearch集群以使所述Elasticsearch集群将所述指定参数交由所述Kibana展示;所述指定参数包括所述采集数据的:主题Topic、指定分区partition以及读取进度offset。在一个实施例中,所述将所述采集数据及其对应指定参数的发送给所述Elasticsearch集群。包括:将所述指定参数映射成逻辑标识符,其中,每条采集数据对应唯一的所述逻辑标识符;将所述采集数据及其对应的逻辑标识符发送给所述Elasticsearch集群。在一个实施例中,所述将所述指定参数映射成逻辑标识符,包括:通过Hash插件配置参数,其中,所述参数包括:数据来源以及涉及的算法;采用配置好的参数对所述Topic、所述partition以及所述offset进行处理,获取所述逻辑标识符。在一个实施例中,所述参数还包括:随机关键词,其中,所述随机关键词用于对所述逻辑标识符进行加密。第四方面,本申请实施例提供一种数据处理方法,应用于数据处理系统,所述数据处理系统中包括:采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana;所述Beats作为消息生产者,将采集的信息发送给所述Kafka集群,所述Logstash集群中的各服务器作为消息消费者,用于从所述Kafka集群中获取订阅的消息,所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果,所述方法应用于所述数据处理系统的所述Elasticsearch集群,所述方法包括:接收所述Logstash集群发送的采集数据及其对应指定参数;所述指定参数包括所述采集数据的:主题Topic、指定分区partition以及读取进度o本文档来自技高网...

【技术保护点】
1.一种数据处理系统,其特征在于,包括:Kafka集群,用于接收所述Beats的采集数据;为所述采集数据按照所属的主题Topic确定用于存储所述采集数据的指定分区partition;并将所述采集数据发送给订阅所述Topic的所述Logstash集群中的服务器;/nLogstash集群的各服务器,用于从所述Kafka集群获取订阅的采集数据;将所述采集数据及其对应指定参数发送给所述Elasticsearch集群;所述指定参数包括所述采集数据的:主题Topic、指定分区partition以及读取进度offset;/nElasticsearch集群,用于接收所述Logstash集群发送的采集数据及其对应指定参数;将所述采集数据及其对应的指定参数发送至所述Kibana;/nKibana,用于响应于在展示界面实施的用户操作,展示用户指定数据的分析结果;/n所述分析结果中包括所述用户指定数据在各时间段的数据量分布、所述用户指定数据的最新一条采集数据对应的主题Topic、指定分区partition及其读取进度offset。/n

【技术特征摘要】
1.一种数据处理系统,其特征在于,包括:Kafka集群,用于接收所述Beats的采集数据;为所述采集数据按照所属的主题Topic确定用于存储所述采集数据的指定分区partition;并将所述采集数据发送给订阅所述Topic的所述Logstash集群中的服务器;
Logstash集群的各服务器,用于从所述Kafka集群获取订阅的采集数据;将所述采集数据及其对应指定参数发送给所述Elasticsearch集群;所述指定参数包括所述采集数据的:主题Topic、指定分区partition以及读取进度offset;
Elasticsearch集群,用于接收所述Logstash集群发送的采集数据及其对应指定参数;将所述采集数据及其对应的指定参数发送至所述Kibana;
Kibana,用于响应于在展示界面实施的用户操作,展示用户指定数据的分析结果;
所述分析结果中包括所述用户指定数据在各时间段的数据量分布、所述用户指定数据的最新一条采集数据对应的主题Topic、指定分区partition及其读取进度offset。


2.根据权利要求1所述的系统,其特征在于,所述Kafka集群在执行当所述数据处理系统出现故障需要恢复数据时,用于:
接收到所述Logstash集群中的所述服务器的重新上线通知后,确定记录的所述Logstash集群中的所述服务器针对所述partition的已消费数据的offset;
根据确定的所述offset开始,向所述Logstash集群中的所述服务器发送其订阅的数据。


3.根据权利要求1所述的系统,其特征在于,所述Logstash集群在执行将所述采集数据及其对应指定参数的发送给所述Elasticsearch集群时,用于:
将所述指定参数映射成逻辑标识符,其中,每条采集数据对应唯一的所述逻辑标识符;
将所述采集数据及其对应的逻辑标识符发送给所述Elasticsearch集群。


4.根据权利要求3所述的系统,其特征在于,所述Logstash集群在执行将所述指定参数映射成逻辑标识符时,用于:
通过Hash插件配置参数,其中,所述参数包括:数据来源以及涉及的算法;
采用配置好的参数对所述Topic、所述partition以及所述offset进行处理,获取所述逻辑标识符。


5.根据权利要求4所述的系统,其特征在于,所述参数还包括:随机关键词,其中,所述随机关键词用于对所述逻辑标识符进行加密。


6.根据权利要求1所述的系统,其特征在于,所述Elasticsearc...

【专利技术属性】
技术研发人员:姜尔赤
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1