一种基于突发词聚类的网络安全事件抽取方法技术

技术编号:33407410 阅读:27 留言:0更新日期:2022-05-11 23:31
本发明专利技术公开了一种基于突发词聚类的网络安全事件抽取方法,给定一段时间内网络安全设备产生的告警事件,事件抽取包括步骤:对该告警事件进行预处理;对经过预处理后的告警事件使用停用词表删除告警事件中的停用词,得到描述告警事件的候选词;利用突发性的定义,根据候选词出现的频率对其进行过滤,得到突发词;将突发词采用word2vec模型映射为突发词向量,并计算余弦相似度;利用single

【技术实现步骤摘要】
一种基于突发词聚类的网络安全事件抽取方法


[0001]本专利技术涉及网络安全自然语言处理领域,特别涉及一种基于突发词聚类的网络安全事件抽取方法。

技术介绍

[0002]计算机网络的规模不断增长,各种基于网络的应用不断丰富扩展,随之而来的网络安全问题也变得越来越突出,已成为制约其发展的主要因素之一,确保网络高效、安全、可靠地平稳运行,是需要面临的严峻的问题。网络事件主要可以分为两类,一种是根据资源的运行数据,如CPU的使率,内存的使用率,按照预先设置好的阈值规则而生成的事件。一种是由资源,如网络设备,根据自身系统的设定而生成的事件。在网络空间中部署的安全设备常常充当着传感器的角色,一旦网络空间中发生异常事件,触发传感器,那么就会产生关于异常事件的相关数据信息,记录下本次网络安全事件。各种传感器生成的原始报警信息大多存在冗余信息,难以直接发现有用的目标信息。
[0003]事件作为信息的一种表现形式,能够描述特定事件地点的事实,而事件抽取研究从非结构化的自然语言文本中自动抽取用户感兴趣的事件,并以结构化的形式呈现给用户。而中文的事件抽取存在比本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于突发词聚类的网络安全事件抽取方法,其特征在于,给定一段时间内网络安全设备产生的告警事件,事件抽取包括以下步骤:S1:对该告警事件进行预处理;S2:对经过预处理后的告警事件使用停用词表删除告警事件中的停用词,得到描述告警事件的候选词;S3:利用突发性的定义,根据候选词出现的频率对其进行过滤,得到突发词;S4:将突发词采用word2vec模型映射为突发词向量,并计算余弦相似度;S5:利用single

pass clustering算法得到不同类簇。2.根据权利要求1所述的基于突发词聚类的网络安全事件抽取方法,其特征在于,所述预处理包括:删除非网络安全事件、删除告警事件中的非法字符。3.根据权利要求1所述的基于突发词聚类的网络安全事件抽取方法,其特征在于,对一段时间内网络安全设备产生的所有告警事件D做预处理,包括步骤:,表示在该段时间内产生的告警事件;定义网络安全事件判别函数,用于判断告警事件是否描述一个异常的告警事件,将告警事件采用word2vec模型映射为词向量,采用长短期记忆网络进行分类;网络安全事件判别函数采用Keras 框架,后端采用TensorFlow,Keras 框架提供了Sequential容器,调用长短期记忆网络接口和全连接层网络接口,将词向量作为网络安全事件判别函数的输入,实现对告警事件的判断;保留判断结果为true的告警事件,对于判断结果为false的告警事件,进行删除操作;定义非法字符模型:,用于删除告警事件中的非法字符,其中,D为所有告警事件,为删除非法字符后的告警事件,非法字符模型表达式为:如果,则为D,如果,为;对删除非法字符后的告警事件采用FoolNLTK进行分词,并使用停用词表删除停用词,得到描述告警事件的候选词,其中,FoolNLTK是一个使用双向长短期记忆网络构建的便捷的中文处理工具包。4.根据权利要求3所述的基于突发词聚类的网络安全事件抽取方法,其特征在于,还包括以下步骤:对突发词进行初步检测,在网络安全事件发生时,时间段T由若干时间窗口s组成,令,即时间段T内含有k个窗口,一个时间窗口内包含若干告警事件,,r为时间窗口s中的告警事件数;若告警事件包括多个候选词,则描述一个告警事件,且表征同一告警事件的候选词互不相同,即满足:
。5.根据权利要求4所述的基于突发词聚类的网络安全事件抽取方法,其特征在于,还包括以下步骤:给定一个候选词,统计其在时间窗口中的频数,得到...

【专利技术属性】
技术研发人员:孙捷胡牧车洵孙翰墨梁小川金奎
申请(专利权)人:南京众智维信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1