【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种训练样本生成、模型训练、提取方法、设备、介质及产品。
技术介绍
1、随着信息技术的飞速发展,人们在各种社会和经济活动中产生大量的格式不尽相同的非结构化数据,将非结构化数据转为结构化数据首先需要将日志中的信息分类提取。
2、现阶段,通常直接对获取到的日志数据进行人工标注,再基于标注得到的日志数据进行相应模型的训练,以对相关的日志字段进行提取;这种方法需要完全依赖于人工标注的数据的精度,精度较低、效率较慢且需要消耗大量的人力资源。
3、如何快速且准确地生成训练样本,为训练得到日志数据的字段提取模型提供依据,降低人力资源的消耗是业内研究的重点问题。
技术实现思路
1、本专利技术提供了一种训练样本生成、模型训练、提取方法、设备、介质及产品,以快速且准确地生成训练样本,为训练得到日志数据的字段提取模型提供依据,降低人力资源的消耗。
2、根据本专利技术的一方面,提供了一种训练样本的生成方法,该方法包括:
3、获取原始日志
...【技术保护点】
1.一种训练样本的生成方法,其特征在于,包括:
2.根据权利要求1所述的训练样本的生成方法,其特征在于,所述对所述第一日志数据集中的各日志数据进行模式挖掘,得到日志数据模式集合,包括:
3.根据权利要求2所述的训练样本的生成方法,其特征在于,所述基于各所述词元序列的相似性对各所述节点进行聚类,包括:
4.根据权利要求1所述的训练样本的生成方法,其特征在于,所述分别确定各日志数据模式包含的字段结构类型,提取各字段结构类型中的可变字段内容并进行变量命名,得到字段与变量之间的映射关系表,包括:
5.根据权利要求1所述的训练样本
...【技术特征摘要】
1.一种训练样本的生成方法,其特征在于,包括:
2.根据权利要求1所述的训练样本的生成方法,其特征在于,所述对所述第一日志数据集中的各日志数据进行模式挖掘,得到日志数据模式集合,包括:
3.根据权利要求2所述的训练样本的生成方法,其特征在于,所述基于各所述词元序列的相似性对各所述节点进行聚类,包括:
4.根据权利要求1所述的训练样本的生成方法,其特征在于,所述分别确定各日志数据模式包含的字段结构类型,提取各字段结构类型中的可变字段内容并进行变量命名,得到字段与变量之间的映射关系表,包括:
5.根据权利要求1所述的训练样本的生成方法,其特征在于,所述基于各所述原始日志数据、所述日志数据模式集合以及所述字段与变量之间的映射关系表生成各训练样本,包括:
【专利技术属性】
技术研发人员:张大伟,
申请(专利权)人:北京优特捷信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。