一种基于数据湖的分布式日志数据分析优化方法技术

技术编号：36500093 阅读：13 留言：0更新日期：2023-02-01 15:21

本发明专利技术公开了一种基于数据湖的分布式日志数据分析优化方法，通过在中央服务器分别搭建日志服务器、关键字数据库、中央初始数据池、文本数据池和杂物数据池；当分布式日志数据进入数据湖时，首先进入的是初始数据池继续存储和初步整理，通过初步整理的数据使得更加便于分析，最后通过本方法技术结合随机森林法构建活跃度模型通过对日志关键字语义分析提高了关键字在日志数据的查询效率，从而达到海量日志数据的查询及分析的优化。志数据的查询及分析的优化。志数据的查询及分析的优化。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据湖的分布式日志数据分析优化方法

[0001]本专利技术属于大数据
，具体涉及一种基于数据湖的分布式日志数据分析优化方法。

技术介绍

[0002]随着科学技术及互联网的发展，推动着大数据时代的来临，各行各业每天都在产生数量巨大的数据碎片，数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集也不再是技术问题，只是面对如此众多的数据，我们怎样才能找到其内在规律。数据湖架构面向多数据源的信息存储，包括物联网在内，大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户，但数据湖架构可不仅仅是一个巨大的磁盘而已，数据湖的数据持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本，但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对，这将抵消其容量成本。
[0003]现有大数据日志查询主要通过三方工具收集日志数据进行存储，然后通过关键字切割成数据块，在进行数据查询时，通过关键字与每一个含有关键字的数据块进行匹配得到查询结果，该方法主要弊端是数据块里包含的查询关键字语义往往不是想要的查询结果从而造成查询不准确。

技术实现思路

[0004]本专利技术针对现有技术的问题，提供一种可以实现海量日志数据的查询及分析的优化以及可以有效提高关键字在日志数据中查询效率的基于数据湖的分布式日志数据分析优化方法。
[0005]...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的分布式日志数据分析优化方法，其特征在于：包括以下步骤：1）在中央服务器分别搭建日志服务器、关键字数据库、中央初始数据池、文本数据池和杂物数据池；2）日志服务器收集各地方上传的日志数据，并将收集的数据存储于中央初始数据池中；3）中央初始数据池对日志服务器收集的日志数据进行初步整理：将其中的重复无差异的数据放入杂物数据池，其余数据按照来源地以数据储存罐形式放入文本数据池；4）通过程序执行将日志数据放入到中央初始数据池的同时将捕捉到的日志数据对应的元数据放入；同时还将与元数据有关的关联元数据、元过程数据、关联元过程数据三方关系映射为元数据标识一起传递给文本数据池；5）构建活跃度模型：对关键字数据库利用随机森林算法进行活跃度预测及排序，将活跃度不高的关键词放入低活跃度数据储存罐中；活跃度高的关键词放入高活...

【专利技术属性】
技术研发人员：梁德成，黄家亮，
申请(专利权)人：广西壮族自治区公众信息产业有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人