一种轻量化的安全告警名称标准化分类方法及系统技术方案

技术编号:36814905 阅读:38 留言:0更新日期:2023-03-09 01:06
本申请提出了一种轻量化的安全告警名称标准化分类方法及系统,涉及数据挖掘和机器学习领域。一种轻量化的安全告警名称标准化分类方法包括:对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征;通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征;通过word2vec网络进行了上下文语义学习,对原始数据的表征得到安全告警特征;通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至l ightgbm进行训练,最终产生信息量更全的特征组。能够实现对各种厂商以及环境的告警名称进行统一标准化分类。行统一标准化分类。行统一标准化分类。

【技术实现步骤摘要】
一种轻量化的安全告警名称标准化分类方法及系统


[0001]本申请涉及数据挖掘和机器学习领域,具体而言,涉及一种轻量化的安全告警名称标准化分类方法及系统。

技术介绍

[0002]随着互联网的快速发展,互联网的网络安全日益重要,各大安全厂商也产生了数种安全产品,这些不同厂商的产品也为网络安全建模产生了重要的数据来源。但是不同的厂商数据格式名称都不一样,有着不同的标准与名称,因此研发一种数据标准化的技术从而把不同厂商之间的数据进行统一标准化刻不容缓。以安全告警名称标准化为切入点,安全告警名称目前存在着中英文混合,领域语料库数据较小等问题。
[0003]目前在该领域常用的告警名称标准化方案通常是基于安全专家总结的关键词匹配等方法进行标准化分类。此方案对于已经熟悉的安全告警名称可以很好地识别,但是对于新厂商的安全告警名称识别起来会更困难。为解决此问题有引入BERT模型进行语义分析分类的方案,但是此方案也会存在一些问题,如跨语言预训练模型的缺失、领域语料库的稀少、输入的单一性、线上推理成本较高等。

技术实现思路

[0004]本申请的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种轻量化的安全告警名称标准化分类方法,其特征在于,包括:对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征;通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征;通过word2vec网络进行了上下文语义学习,对原始数据的表征得到安全告警特征;通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至lightgbm进行训练,最终产生信息量更全的特征组。2.如权利要求1所述的一种轻量化的安全告警名称标准化分类方法,其特征在于,所述对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征包括:根据安全专家的经验总结出告警类别特定的特征判别点,通过提取相应的特征辅助模型学习。3.如权利要求1所述的一种轻量化的安全告警名称标准化分类方法,其特征在于,所述通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征包括:利用分词工具加词频统计算法TF

IDF,进行快速全局地统计出相关告警名称文档的统计特征,同时利用SVD算法进行降维提高数据的信息密度,防止前置算法产生的稀疏矩阵带来的维度灾难,降低下游模型的数据压力。4.如权利要求1所述的一种轻量化的安全告警名称标准化分类方法,其特征在于,所述通过word2vec网络进行了上下文语义学习,对原始数据的表征包括:无监督词向量预训练网络word2vec训练安全告警领域的语料库,进行上下文语义特征提取,与前面的统计特征、人工特征进行互相弥补,对原始数据的表征。5.如权利要求1所述的一种轻量化的安全告...

【专利技术属性】
技术研发人员:刘鑫刘奇刘剑群孟熹吴朝亮赵毅雷加伟许佳行张向瑞王亚洲宫冠鹏邢佳佳王学文陈鹏汪钰峻吴嘉宇张简刘晓恒
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1