一种日志全文检索方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33043469 阅读:63 留言:0更新日期:2022-04-15 09:25
本发明专利技术的实施例公开一种日志全文检索方法、装置、电子设备及存储介质,涉及数据检索技术领域,能够解决基于传统数据库的日志全文检索效率低,查询结果准确性低,影响用户体验的问题。所述日志全文检索方法包括采集日志数据,对日志数据进行预处理,预处理包括清洗和分词,将清洗后日志数据及其对应分词存入基于ELK技术栈的全文检索系统,在基于ELK技术栈的全文检索系统中为每个分词分配不同权重,获取检索请求,将检索请求在基于ELK技术栈的全文检索系统中按照分词权重从高到低顺序进行查询匹配,将匹配到的分词对应日志数据返回至用户或客户端,本发明专利技术适用于海量日志数据全文检索场景,并且可以提高匹配结果准确性,提升用户体验。户体验。户体验。

【技术实现步骤摘要】
一种日志全文检索方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据检索
,尤其涉及一种日志全文检索方法、装置、电子设备及存储介质。

技术介绍

[0002]全文检索是一种将文件中所用文本与检索项匹配的文字资料检索方法,可以方便的进行对数据的相关统计和分析。随着信息技术的发展,越来越多的应用或者站点每天都可能会产生TB级别的日志数据,因此,用户在搜索日志时可能面临PB级的海量数据。传统的日志服务通常是通过数据库存储的方式,构建对应的日志表,并通过指定日志信息字段的方式对日志进行记录或检索查询等功能,但这种基于传统数据库的日志查询在PB级的海量日志数据的场景下,会生成巨大的数据文件,占用大量的磁盘存储空间,数据库的日志检索性能较差,全文检索无法匹配到对应结果或全文检索得到的匹配结果准确性低,造成用户体验不佳。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供一种日志全文检索方法、装置、电子设备及存储介质,以解决基于传统数据库的日志全文检索效率低,查询结果准确性低,影响用户体验的问题。/>[0004]第一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种日志全文检索方法,其特征在于,应用于电子设备;所述方法包括:采集日志数据;对所述日志数据进行预处理,所述预处理包括清洗和分词;将清洗后日志数据及其对应分词存入基于ELK技术栈的全文检索系统;在所述基于ELK技术栈的全文检索系统中为每个分词分配不同权重;获取检索请求,将所述检索请求在所述基于ELK技术栈的全文检索系统中按照分词权重从高到低顺序进行查询匹配;将匹配到的分词对应日志数据返回至用户或客户端。2.根据权利要求1所述的日志全文检索方法,其特征在于,所述清洗包括:对日志数据按照按照预设保留模板进行过滤;所述分词包括对清洗后日志数据按照倒排索引方式拆分成多个分词。3.根据权利要求2所述的日志全文检索方法,其特征在于,所述在所述基于ELK技术栈的全文检索系统中为每个分词分配不同权重,包括:按照分词被查询的频率将所述基于ELK技术栈的全文检索系统中日志数据划分为热数据、温数据和冷数据,其中,热数据对应的分词权重高于温数据对应的分词权重,温数据对应的分词权重高于冷数据对应的分词权重。4.根据权利要求3所述的日志全文检索方法,其特征在于,所述基于ELK技术栈的全文检索系统包括:Elasticsearch集群和logstash服务器;所述elasticsearch集群包括多个存储节点,所述存储节点数量依据日志数据存储量设置;所述热数据、温数据和冷数据分别存入对应存储节点。5.根据权利要求4所述的日志全文检索方法,其特征在于,还包括:将不同来源的日志数据按照预设标准模板整合后导入到热数据对应存储节点;将热数据对应存储节点中未被访问时间达到第一预设时间的数据转存到温数据对应存储节点;将温数据对应存储节点中未被访问时间达到第二预设时间的数据转存到冷数据对应存储节点。6.根据权利要求1所述的日志全文检索方法,其特征在于,在采集日志数据后,还包括:将不同来源的日志数据按照预设标准模板整合成标准日志。7.根据权利要求6所述的日志全文检索方法,其特征在于,还包括:建立所述标准模板中字段与业务内容映射关系表,以根据字段匹配到对应业务内容。8.一种日志全文检索装置,其特征在于,包括:采集模块,用于采集日志数据;预处理模块,用于对所述日志数据进行预处理,所述预处理包括清洗和分词;存储模块,用于将清洗后日志数据及其对应分词存入基于ELK技术栈...

【专利技术属性】
技术研发人员:张楠楠杨飞
申请(专利权)人:北京安天网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1