基于分类模型的数据处理方法、装置、电子设备及介质制造方法及图纸

技术编号:26223496 阅读:29 留言:0更新日期:2020-11-04 10:55
本申请实施例公开了一种基于分类模型的数据处理方法、装置、电子设备及介质,涉及人工智能,其中方法包括:获取日志数据,所述日志数据包括标记日志数据和无标记日志数据,所述标记日志数据携带标记信息;对所述无标记日志数据进行数据增强处理,获得增强的无标记日志数据;基于文本分类网络模型,根据所述标记日志数据对所述增强的无标记日志数据进行预测处理,获得所述增强的无标记日志数据的一致性损失,所述一致性损失表示:所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中,分别对应的输出之间的距离;基于所述一致性损失训练所述文本分类网络模型,获得目标分类模型,以及所述无标记日志数据的异常信息。

【技术实现步骤摘要】
基于分类模型的数据处理方法、装置、电子设备及介质
本申请涉及人工智能领域,尤其涉及一种基于分类模型的数据处理方法、装置、电子设备及介质。
技术介绍
异常检测是智能运营(AIOps)系统中的一项非常基础但是十分重要的功能,主要是通过算法和模型去自动的挖掘发现KPI(KeyPerformanceIndicator)时间序列数据中的异常行为,为后续的报警,自动止损,根因分析等提供必要的决策依据。日志是由大规模系统生成来记录系统状态和运行时状态的文本信息,每个日志都包括时间戳和指示发生了什么的文本消息。传统的异常日志分类模型为了获取准确率通常使用监督学习方法,采用的是标记日志数据(对正常情况和异常情况有明确的说明),然而海量日志中具有标记的日志数据十分稀少,而对无标记的日志数据进行标注,在现代化系统的海量日志信息中非常耗费人力和时间。并且,异常类型及KPI类型多样,给异常检测带来了极大的困难。
技术实现思路
本申请实施例提供一种基于分类模型的数据处理方法、装置、电子设备及存储介质。第一方面,本申请实施例提供了一种基于本文档来自技高网...

【技术保护点】
1.一种基于分类模型的数据处理方法,其特征在于,所述方法包括:/n获取日志数据,所述日志数据包括标记日志数据和无标记日志数据,所述标记日志数据携带标记信息;/n对所述无标记日志数据进行数据增强处理,获得增强的无标记日志数据;/n基于文本分类网络模型,根据所述标记日志数据对所述增强的无标记日志数据进行预测处理,获得所述增强的无标记日志数据的一致性损失,所述一致性损失表示:所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中,分别对应的输出之间的距离;/n基于所述一致性损失训练所述文本分类网络模型,获得目标分类模型,以及所述无标记日志数据的异常信息。/n

【技术特征摘要】
1.一种基于分类模型的数据处理方法,其特征在于,所述方法包括:
获取日志数据,所述日志数据包括标记日志数据和无标记日志数据,所述标记日志数据携带标记信息;
对所述无标记日志数据进行数据增强处理,获得增强的无标记日志数据;
基于文本分类网络模型,根据所述标记日志数据对所述增强的无标记日志数据进行预测处理,获得所述增强的无标记日志数据的一致性损失,所述一致性损失表示:所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中,分别对应的输出之间的距离;
基于所述一致性损失训练所述文本分类网络模型,获得目标分类模型,以及所述无标记日志数据的异常信息。


2.根据权利要求1所述的方法,其特征在于,所述基于文本分类网络模型,根据所述标记日志数据对所述增强的无标记日志数据进行预测处理之前,所述方法还包括:
将所述标记日志数据输入所述文本分类网络模型进行训练,获得所述标记日志数据的交叉熵损失;
所述基于所述一致性损失训练所述文本分类网络模型,获得目标分类模型,包括:
根据所述标记日志数据的交叉熵损失和所述无标记日志数据的一致性损失计算目标损失;
基于所述目标损失训练所述文本分类网络模型,获得所述目标分类模型。


3.根据权利要求2所述的方法,其特征在于,所述文本分类网络模型的输入层包括设置的长度阈值,所述将所述标记日志数据输入所述文本分类网络模型进行训练,包括:
将所述标记日志数据的样本序列输入所述文本分类网络模型,在所述文本分类网络模型的输入层:
判断所述样本序列的文本长度是否小于所述长度阈值;
若所述样本序列的文本长度小于所述长度阈值,使用自定义填充符将所述样本序列填充至满足所述长度阈值,若所述样本序列的文本长度大于所述长度阈值,将所述样本序列截取为满足所述长度阈值的子序列,并构建所述样本序列的词向量,所述样本序列的词向量包括所述样本序列中各个词汇对应的分布式表示。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
在所述文本分类网络模型的训练过程中,根据标记日志数据的增加情况,逐步删除训练中的标记日志数据。


5.根据权利要求4所述的方法,其特征在于,所述根据标记日志数据的增加情况,逐步删除训...

【专利技术属性】
技术研发人员:邓悦郑立颖徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1