一种基于Elasticsearch的大数据入库方法技术

技术编号:38154800 阅读:9 留言:0更新日期:2023-07-13 09:22
本发明专利技术公开了一种基于Elasticsearch的大数据入库方法。该方法包括:通过负载均衡系统将流量数据镜像到Elasticsearch数据库;基于所述流量数据的各维度信息对已入库的所述流量数据进行合并;监控当前内存CPU的使用情况,动态修改所述Elasticsearch数据库的主副分片。本发明专利技术能够减少数据库压力,能够降低读写压力,改进节点内线程内存消耗的管理方式。改进节点内线程内存消耗的管理方式。改进节点内线程内存消耗的管理方式。

【技术实现步骤摘要】
一种基于Elasticsearch的大数据入库方法


[0001]本专利技术涉及大数据入库
,特别涉及一种基于Elasticsearch的大数据入库方法。

技术介绍

[0002]当存储系统日志和网络日志时,由于数据量较大,且无绝对空闲时刻,Elasticsearch分片和各个节点没有繁忙,导致内存满载,查询缓慢甚至查询导致机器死机;日志信息重复,导致Elasticsearch越来越大,主节点容易负载过高,导致宕机;页面查询信息无法获取,页面卡死,用户体验差。

技术实现思路

[0003]为了解决上述问题,本专利技术提供了一种基于Elasticsearch的大数据入库方法。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005]一种基于Elasticsearch的大数据入库方法,包括:
[0006]通过负载均衡系统将流量数据镜像到Elasticsearch数据库;
[0007]基于所述流量数据的各维度信息对已入库的所述流量数据进行合并;
[0008]监控当前内存CPU的使用情况,动态修改所述Elasticsearch数据库的主副分片。
[0009]可选地,所述维度信息包括攻击维度、时间和威胁程度。
[0010]可选地,基于所述流量数据的各维度信息对已入库的所述流量数据进行合并之后,还包括:
[0011]将未合并的流量数据清除,保留合并后的流量数据,并记录合并次数。
[0012]本专利技术还提供了一种基于Elasticsearch的大数据入库系统,包括:
[0013]镜像模块,用于通过负载均衡系统将流量数据镜像到Elasticsearch数据库
[0014][0015]合并模块,用于基于所述流量数据的各维度信息对已入库的所述流量数据进行合并;
[0016]监控及修改模块,用于监控当前内存CPU的使用情况,动态修改所述Elasticsearch数据库的主副分片。
[0017]可选地,所述维度信息包括攻击维度、时间和威胁程度。
[0018]可选地,还包括:
[0019]清除模块,用于将未合并的流量数据清除,保留合并后的流量数据,并记录合并次数
[0020]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0021](1)对已经入库的数据根据攻击维度,时间和威胁程度等信息进行合并,能够减少数据库压力,按天归并。
[0022](2)监控当前内存CPU使用情况,动态修改Elasticsearch的主副分片,能够降低读
写压力,改进节点内线程内存消耗的管理方式。
附图说明
[0023]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本专利技术提供的基于Elasticsearch的大数据入库方法的流程图。
具体实施方式
[0025]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0027]实施例一
[0028]本专利技术提供的基于Elasticsearch的大数据入库方法,包括以下步骤:
[0029]S1:通过负载均衡系统将流量数据镜像到Elasticsearch数据库。
[0030]S2:基于所述流量数据的各维度信息对已入库的所述流量数据进行合并,将其他数据清除只留下合并后的一条数据,记录合并次数;所述维度信息包括攻击维度、时间和威胁程度。
[0031]S3:监控当前内存CPU的使用情况,动态修改所述Elasticsearch数据库的主副分片。
[0032]负载均衡是高可用网络基础架构的关键组件,通常用于将工作负载分布到多个服务器来提高网站、应用、数据库或其他服务的性能和可靠性。
[0033]一个没有负载均衡的web架构,在这里用户是直连到web服务器,如果这个服务器宕机了,那么用户自然也就没办法访问了。另外,如果同时有很多用户试图访问服务器,超过了其能处理的极限,就会出现加载速度缓慢或根本无法连接的情况。
[0034]而通过引入一个负载均衡器和多个额外的web服务器,可以缓解这个故障。通常情况下,所有的后端服务器会保证提供相同的内容,以便用户无论哪个服务器响应,都能收到一致的内容。额外的多个web服务器也会分担负载,减轻单个web服务器的压力,从而处理更多的用户请求。
[0035]图1为基于Elasticsearch的大数据入库方法的流程图,如图1所示,本专利技术通过负载均衡系统将流量镜像到Elasticsearch(一种数据库)数据库,通过流量各维度的信息进行入库,如攻击维度,时间,威胁程度等,通过Linux crontab(linux系统程序)计划任务调用Python(一种脚本语言)脚本,对已经入库的数据根据攻击维度,时间和威胁程度等信息进行合并,减少数据库压力,按天归并。
[0036]且crontab计划任务调用第二个Python脚本,用于监控当前内存CPU使用情况,动
态修改Elasticsearch的主副分片降低读写压力,节点包含多个线程池,以便改进节点内线程内存消耗的管理方式。其中许多池也有与之关联的队列,这允许保留挂起的请求而不是丢弃。
[0037]Web页面查询Elasticsearch数据时,根据其查询语句,优先查询合并后数据,如查询失败,查询最新入库数据,返回前端。
[0038]实施例二
[0039]为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供了一种基于Elasticsearch的大数据入库系统。
[0040]该系统包括:
[0041]镜像模块,用于通过负载均衡系统将流量数据镜像到Elasticsearch数据库;
[0042]合并模块,用于基于所述流量数据的各维度信息对已入库的所述流量数据进行合并;
[0043]监控及修改模块,用于监控当前内存CPU的使用情况,动态修改所述Elasticsearch数据库的主副分片。
[0044]该系统还包括:
[0045]清除模块,用于将未合并的流量数据清除,保留合并后的流量数据,并记录合并次数。
[0046]本文中应用了具体个例对专利技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本专利技术的方法及其核心思想,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Elasticsearch的大数据入库方法,其特征在于,包括:通过负载均衡系统将流量数据镜像到Elasticsearch数据库;基于所述流量数据的各维度信息对已入库的所述流量数据进行合并;监控当前内存CPU的使用情况,动态修改所述Elasticsearch数据库的主副分片。2.根据权利要求1所述的基于Elasticsearch的大数据入库方法,其特征在于,所述维度信息包括攻击维度、时间和威胁程度。3.根据权利要求1所述的基于Elasticsearch的大数据入库方法,其特征在于,基于所述流量数据的各维度信息对已入库的所述流量数据进行合并之后,还包括:将未合并的流量数据清除,保留合并后的流量数据,并记录合并次数。4.一...

【专利技术属性】
技术研发人员:韩宇洋
申请(专利权)人:上海弘积信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1