训练样本生成、模型训练、提取方法、设备、介质及产品技术

技术编号:46597122 阅读:0 留言:0更新日期:2025-10-10 21:29
本发明专利技术实施例公开了一种训练样本生成、模型训练、提取方法、设备、介质及产品,涉及计算机技术领域。该方法包括:获取原始日志数据,并对各原始日志数据进行标准化,得到第一日志数据集;对第一日志数据集中的各日志数据进行模式挖掘,得到日志数据模式集合;分别确定各日志数据模式包含的字段结构类型,提取各字段结构类型中的可变字段内容并进行变量命名,得到字段与变量之间的映射关系表;基于各原始日志数据、日志数据模式集合以及字段与变量之间的映射关系表生成各训练样本;各训练样本用于对日志数据的字段提取模型进行训练。本发明专利技术实施例的方案,可以快速且准确地生成训练样本,为训练得到日志数据的字段提取模型提供依据。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种训练样本生成、模型训练、提取方法、设备、介质及产品


技术介绍

1、随着信息技术的飞速发展,人们在各种社会和经济活动中产生大量的格式不尽相同的非结构化数据,将非结构化数据转为结构化数据首先需要将日志中的信息分类提取。

2、现阶段,通常直接对获取到的日志数据进行人工标注,再基于标注得到的日志数据进行相应模型的训练,以对相关的日志字段进行提取;这种方法需要完全依赖于人工标注的数据的精度,精度较低、效率较慢且需要消耗大量的人力资源。

3、如何快速且准确地生成训练样本,为训练得到日志数据的字段提取模型提供依据,降低人力资源的消耗是业内研究的重点问题。


技术实现思路

1、本专利技术提供了一种训练样本生成、模型训练、提取方法、设备、介质及产品,以快速且准确地生成训练样本,为训练得到日志数据的字段提取模型提供依据,降低人力资源的消耗。

2、根据本专利技术的一方面,提供了一种训练样本的生成方法,该方法包括:

3、获取原始日志数据,并对各所述原始本文档来自技高网...

【技术保护点】

1.一种训练样本的生成方法,其特征在于,包括:

2.根据权利要求1所述的训练样本的生成方法,其特征在于,所述对所述第一日志数据集中的各日志数据进行模式挖掘,得到日志数据模式集合,包括:

3.根据权利要求2所述的训练样本的生成方法,其特征在于,所述基于各所述词元序列的相似性对各所述节点进行聚类,包括:

4.根据权利要求1所述的训练样本的生成方法,其特征在于,所述分别确定各日志数据模式包含的字段结构类型,提取各字段结构类型中的可变字段内容并进行变量命名,得到字段与变量之间的映射关系表,包括:

5.根据权利要求1所述的训练样本的生成方法,其特征在...

【技术特征摘要】

1.一种训练样本的生成方法,其特征在于,包括:

2.根据权利要求1所述的训练样本的生成方法,其特征在于,所述对所述第一日志数据集中的各日志数据进行模式挖掘,得到日志数据模式集合,包括:

3.根据权利要求2所述的训练样本的生成方法,其特征在于,所述基于各所述词元序列的相似性对各所述节点进行聚类,包括:

4.根据权利要求1所述的训练样本的生成方法,其特征在于,所述分别确定各日志数据模式包含的字段结构类型,提取各字段结构类型中的可变字段内容并进行变量命名,得到字段与变量之间的映射关系表,包括:

5.根据权利要求1所述的训练样本的生成方法,其特征在于,所述基于各所述原始日志数据、所述日志数据模式集合以及所述字段与变量之间的映射关系表生成各训练样本,包括:

【专利技术属性】
技术研发人员:张大伟
申请(专利权)人:北京优特捷信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1