一种基于数据湖的分布式日志数据分析优化方法技术

技术编号:36500093 阅读:13 留言:0更新日期:2023-02-01 15:21
本发明专利技术公开了一种基于数据湖的分布式日志数据分析优化方法,通过在中央服务器分别搭建日志服务器、关键字数据库、中央初始数据池、文本数据池和杂物数据池;当分布式日志数据进入数据湖时,首先进入的是初始数据池继续存储和初步整理,通过初步整理的数据使得更加便于分析,最后通过本方法技术结合随机森林法构建活跃度模型通过对日志关键字语义分析提高了关键字在日志数据的查询效率,从而达到海量日志数据的查询及分析的优化。志数据的查询及分析的优化。志数据的查询及分析的优化。

【技术实现步骤摘要】
一种基于数据湖的分布式日志数据分析优化方法


[0001]本专利技术属于大数据
,具体涉及一种基于数据湖的分布式日志数据分析优化方法。

技术介绍

[0002]随着科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集也不再是技术问题,只是面对如此众多的数据,我们怎样才能找到其内在规律。数据湖架构面向多数据源的信息存储,包括物联网在内,大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户,但数据湖架构可不仅仅是一个巨大的磁盘而已,数据湖的数据持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对,这将抵消其容量成本。
[0003]现有大数据日志查询主要通过三方工具收集日志数据进行存储,然后通过关键字切割成数据块,在进行数据查询时,通过关键字与每一个含有关键字的数据块进行匹配得到查询结果,该方法主要弊端是数据块里包含的查询关键字语义往往不是想要的查询结果从而造成查询不准确。

技术实现思路

[0004]本专利技术针对现有技术的问题,提供一种可以实现海量日志数据的查询及分析的优化以及可以有效提高关键字在日志数据中查询效率的基于数据湖的分布式日志数据分析优化方法。
[0005]为了实现上述专利技术目的,本专利技术的技术方案如下:一种基于数据湖的分布式日志数据分析优化方法,包括以下步骤:1)在中央服务器分别搭建日志服务器、关键字数据库、中央初始数据池、文本数据池和杂物数据池;2)日志服务器收集各地方上传的日志数据,并将收集的数据存储于中央初始数据池中;3)中央初始数据池对日志服务器收集的日志数据进行初步整理:将其中的重复无差异的数据放入杂物数据池,其余数据按照来源地以数据储存罐形式放入文本数据池;4)通过程序执行将日志数据放入到中央初始数据池的同时将捕捉到的日志数据对应的元数据放入:同时还将与元数据有关的关联元数据、元过程数据、关联元过程数据三方关系映射为元数据标识一起传递给文本数据池;5)构建活跃度模型:对关键字数据库利用随机森林算法进行活跃度预测及排序,将活跃度不高的关键词放入低活跃度数据储存罐中;活跃度高的关键词放入高活跃度数据
储存罐,并与各地方日志储存罐数据进行联合分析,从而达到海量日志数据的查询及分析的优化;该活跃度公式为:式中:设定一个常数n,作为采样储存罐的数量;i指采样的次数,其中|Di|/|D|指的是关键字数据库每个关键字在储存罐数据的出现的概率,计算H(i)时带入的关键字数据库里关键字的数量,得出各个关键字特征的H(i)=该关键字活跃度概率;H
j
等于该场景所有概率预测H(i)的加权平均值,该场景发生异常概率加权平均值。
[0006]所述元数据指对数据记录、索引、键值及不同数据属性间关系的描述等。
[0007]所述元过程数据指比采集的数据更据有分析价值,通常包含了更丰富的信息,如记录,日期、地点、责任人、记录设备,其他附属信息等。
[0008]进一步的,所述活跃度不高的关键词指利用随机森林算法进行活跃度预测及排序得到活跃度低于50%的关键词;所述活跃度高的关键词指利用随机森林算法进行活跃度预测及排序得到活跃度大于等于50%的关键词。
[0009]本专利技术的有益效果:本专利技术通过初始数据池对日志数据进行存储和初步整理,使得日志数据更加便于分析,最后通过本方法技术结合随机森林法构建活跃度模型通过对日志关键字语义分析提高了关键字在日志数据的查询效率,从而达到海量日志数据的查询及分析的优化。
附图说明
[0010]图1为本专利技术方法的流程示意图。
具体实施方式
[0011]下面结合具体实施例对本专利技术做进一步说明。
[0012]实施例:一种基于数据湖的分布式日志数据分析优化方法,包括以下步骤:1)在中央服务器分别搭建日志服务器、关键字数据库、中央初始数据池、文本数据池和杂物数据池;2)日志服务器收集各地方上传的日志数据,并将收集的数据存储于中央初始数据池中;3)中央初始数据池对日志服务器收集的日志数据进行初步整理:将其中的重复无差异的数据放入杂物数据池,其余数据按照来源地以数据储存罐形式放入文本数据池;4)通过程序执行将日志数据放入到中央初始数据池的同时将捕捉到的日志数据对应的元数据放入:同时还将与元数据有关的关联元数据、元过程数据、关联元过程数据三方关系映射为元数据标识一起传递给文本数据池;5)构建活跃度模型:对关键字数据库利用随机森林算法进行活跃度预测及排序,将活跃度不高的关键词放入低活跃度数据储存罐中;活跃度高的关键词放入高活跃度数据
储存罐,并与各地方日志储存罐数据进行联合分析,从而达到海量日志数据的查询及分析的优化;该活跃度公式为:参数说明:设定一个常数n,作为采样储存罐的数量;i指采样的次数,其中|Di|/|D|指的是关键字数据库每个关键字在储存罐数据的出现的概率,计算H(i)时带入的关键字数据库里关键字的数量,得出各个关键字特征的H(i)=该关键字活跃度概率;H
j
等于该场景所有概率预测H(i)的加权平均值,该场景发生异常概率加权平均值。
[0013]如:带入储存罐一的历史日志数据有|D|条,符合储存罐一的关键字数据有|Di|条。
[0014]随机森林的流程:1、首先是输入为样本集|D|;2、随机选择训练的数据集和样本特征进行|Di|轮训练;2.1、对训练集进行第i次随机采样,共采集n次,得到包含n个样本的采样集;2.2、用采样集|Di|训练第n个决策树模型H(i);在训练决策树模型的节点的时候,在节点上所有的样本特征中选择一部分样本特征,在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分结果H(i);3、H(j)等于该场景所有概率预测H(i)的加权平均值。
[0015]所述活跃度不高的关键词指利用随机森林算法进行活跃度预测及排序得到活跃度低于50%的关键词;所述活跃度高的关键词指利用随机森林算法进行活跃度预测及排序得到活跃度大于等于50%的关键词。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的分布式日志数据分析优化方法,其特征在于:包括以下步骤:1)在中央服务器分别搭建日志服务器、关键字数据库、中央初始数据池、文本数据池和杂物数据池;2)日志服务器收集各地方上传的日志数据,并将收集的数据存储于中央初始数据池中;3)中央初始数据池对日志服务器收集的日志数据进行初步整理:将其中的重复无差异的数据放入杂物数据池,其余数据按照来源地以数据储存罐形式放入文本数据池;4)通过程序执行将日志数据放入到中央初始数据池的同时将捕捉到的日志数据对应的元数据放入;同时还将与元数据有关的关联元数据、元过程数据、关联元过程数据三方关系映射为元数据标识一起传递给文本数据池;5)构建活跃度模型:对关键字数据库利用随机森林算法进行活跃度预测及排序,将活跃度不高的关键词放入低活跃度数据储存罐中;活跃度高的关键词放入高活...

【专利技术属性】
技术研发人员:梁德成黄家亮
申请(专利权)人:广西壮族自治区公众信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1