一种日志数据的聚合方法与系统技术方案

技术编号：38358907 阅读：13 留言：0更新日期：2023-08-05 17:29

本发明专利技术公开一种日志数据的聚合方法及系统，将数据在入库时进行一定的归并，从而缩小数据统计的规模，解决统计规模较大的问题，通过空间换取时间的方式可以加快复杂聚合的处理速度；将归并后的数据做一份数据冗余，对于该数据集进行聚合，解决大数据量下的聚合问题。题。

全部详细技术资料下载

【技术实现步骤摘要】
一种日志数据的聚合方法与系统

[0001]本专利技术属于数据分析
，尤其是涉及一种日志数据的聚合处理方法及系统。

技术介绍

[0002]随着大数据时代的到来，一方面由于数据量的爆炸式增长，另一方面由于数据类型的增加，传统的数据分析方法面临巨大的挑战。大数据量的即席查询和应用于数据产品的快速查询，对大数据业务的有效实现至关重要。为了能够满足对一些特定查询、数据挖掘应用的快速处理，数据库需要按照各种维度或多种维度组合，对一些数据字段进行统计分析，如对数据进行分组的求和，求数，最大值，最小值，或者其它的自定义的统计功能，聚合得到特定的一些数据概览。
[0003]数据的聚合统计性能是大数据分析领域经常面临的问题。特别是随着数据量的不断增加，涉及复杂聚合的场景开始出现聚合较慢，大于十秒以上的情况，在亿级数据下出现甚至聚合超时的情况。

技术实现思路

[0004]有鉴于此，本专利技术旨在提出一种日志数据的聚合方法及系统，解决在大数据量的复杂场景下数据分析处理与统计超时的问题。
[0005]本专利技术的技术方案，首先提供一种日志数据的聚合方法，具体包括：获取原始日志数据；判断数据是否符合过滤策略，若是则丢弃数据，否则根据源IP和目的IP的资产属性与地理信息，利用KafkaStream或Siddhi对数据进行归并处理，并将数据写回Kafka；同时在ClickHouse中建立Kafka表，根据Kafka主题将数据写入ClickHouse；以及将归并后的原始数据通过Logstash或Beats写入ES...

【技术保护点】

【技术特征摘要】
1.一种日志数据的聚合方法，其特征在于，包括：获取原始日志数据；判断数据是否符合过滤策略，若是则丢弃数据，否则根据源IP和目的IP的资产属性与地理信息，利用KafkaStream或Siddhi对数据进行归并处理，并将数据写回Kafka；同时在ClickHouse中建立Kafka表，根据Kafka主题将数据写入ClickHouse；以及将归并后的原始数据通过Logstash或Beats写入ES。2.根据权利要求1所述的日志数据聚合方法，其特征在于，所述将数据写入ClickHouse，包括根据源ip、源属性、目标IP、目标属性与目的端口五个维度，通过Flink每隔五分钟进行一次聚合统计，并将聚合结果写入ClickHouse。3.根据权利要求1所述的日志数据聚合方法，其特征在于，该方法还包括对聚合后的数据进行查询筛选，具体为：先根据日志产生时间筛选数据，并对数据量进行累加排序；再根据源ip、源属性、目标IP与目标属性从ES中进行筛选，对筛选结果计算各维度对应的服务top3、流量大小、访问次数，返回至查询请求端。4.一种日志...

【专利技术属性】
技术研发人员：王平，何建锋，李周，
申请(专利权)人：西安交大捷普网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人