一种基于文本处理的网络安全事件可视化方法技术

技术编号:21432202 阅读:34 留言:0更新日期:2019-06-22 11:55
本发明专利技术公开了一种基于文本处理的网络安全事件可视化方法,其步骤包括:1)获取多个网络安全事件生成一事件集合,并将其转化为一结构化特征向量;2)对每一网络安全事件进行分类标注;3)将每一网络安全事件中的分词按设定的抽取目标进行注释,然后根据注释抽取各网络安全事件的安全事件内容;4)根据每一网络安全事件的安全事件内容,构建出一基础FP树,从该基础FP树中获得条件模式基,利用该条件模式基,再构建一个新的条件FP树,直至新的条件FP树中仅包含一个元素项,得到该网络安全事件的关联频繁集;5)根据关联频繁集,确定对应网络安全事件的关联度强弱以及各网络安全事件之间的连接关系,对该事件集合进行可视化。

【技术实现步骤摘要】
一种基于文本处理的网络安全事件可视化方法
本专利技术属于网络安全
,更进一步涉及一种基于文本处理的网络安全事件可视化方法。本专利技术主要用来实现安全事件语义关联关系模型的建立,揭示安全事件连锁反应机理,为提出安全事件描述框架及度量指标体系奠定基础。所述模型可适用于不断更新的网络安全事件的及时处理与响应,也对攻防技术发展趋势分析与预测有极其积极的意义。
技术介绍
对网络安全(NetworkSecurity)的评估与度量指的是提取一定时间、一定空间内的网络安全相关的要素进行分析,针对安全数据进行综合处理,确定系统受到的攻击行为,提供网络安全的整体情况,进而评估网络系统安全状态,并基于分析结果预测其未来的发展趋势。随着计算机技术和通信技术的迅速发展以及用户需求的不断增加,计算机网络规模日益庞大,应用系统日益复杂。网络安全威胁的范围和内容不断扩大和演化,网络安全形势与挑战日益严峻复杂。如何全方位感知网络安全态势、实时监控网络运行状况、保障信息资产安全,应该引起我们足够的重视。因此,针对网络安全评估模型及关键技术已经成为目前网络安全领域的研究热点。由于网络安全事件层出不穷,针对于安全事件的防御技术和网络攻击危害的预测具有十分重要的意义。网络安全事件可以反映出的技术和危害之间存在的内在关联。网络安全事件带来的危害,对人们的各方面的生活造成不同程度的影响。道高一尺,魔高一丈,安全事件带来危害的同时,也激励着技术的进一步发展,不断出现的新技术或新方法来应对各种网络攻击带来的危害。通过对目前安全事件研究现状的分析,可以得出现在的安全事件分析方法存在以下三点不足:(1)对实际网络安全事件的处理没有提出一套完整的处理方案,仅仅针对于不同安全事件的不同方面去提出应对措施。(2)对网络安全事件的研究主要集中在对响应模型的提出,并没有对安全事件之间的内在关联的机制和原理进行进一步揭示,即安全事件时空语义的关联关系。(3)主要的安全事件数据来源集中在入侵检测数据和日志数据等方面,并没有针对于网络安全事件的文字数据的分析和研究。
技术实现思路
本专利技术的目的在于提供一种基于文本处理的网络安全事件可视化方法,能够将实际网络安全历史事件转化为网络安全度量与评估的重要参数。本专利技术基于文本处理的网络安全事件可视化方法,包括如下步骤:1)获取实际网络安全事件:通过调研国内外知名安全资讯网站,确定具有研究意义的某些网站,通过编写网络爬虫进行网络安全事件文字信息的收集;2)文本信息预处理:首先是进行数据清洗,即去除文本中的特殊字符、统一文本格式,之后将清洗后的文本转化为由数字表示的结构化特征向量,即生成网络安全事件样本的样本向量并将样本向量矩阵化,从而使得算法可以对其进行解析,结构化特征向量的生成主要可分为中文分词、特征提取以及向量化表示三个部分;3)网络安全事件分类实现:(3a)文本类别确定:依据中国国家标准化管理委员会发布的《信息安全事件分类分级指南》,综合本方法的实现目标与现今的网络安全形势,决定将事件依据其威胁形式划分为五个大类,分别是:漏洞预警事件、恶意软件事件、信息泄漏事件、网络攻击事件及其他安全事件;(3b)神经网络分类模型对每一样本(即上述采集的安全事件)进行分类标注:对于未知的事件样本,模型的输入参数为该样本中每个特征词的TF/IDF权值,首先使用梯度下降算法在代价函数的参数空间中搜索结构化特征向量中不同特征TF/IDF权值的最优解,然后根据特征的TF/IDF权值及其最优解利用反向传播算法来计算权值导数,用于计算特征与类别间联合概率分布;最后依据训练时得到的各特征与类别间联合概率分布(通过回归算法使神经网络的输出权值转化为概率,得到结构化特征向量与类别间的联合概率分布),分别计算在输入该未知样本的特征时(即该未知样本的特征词TFIDF权值时),该未知样本属于五个类别的后验概率,其中具有最大后验概率的类别k即为未知样本的分类预测结果。(3c)Adaboost算法对分类模型的优化:首先初始化权值矩阵,训练得到弱分类器并进行测试,之后将测试结果中被正确分类的样本的权重降低,将测试结果中被错误分类的样本的权重提高,将每一轮得到的弱分类器依据其准确率计算分类器系数,最终使用该系数将各个弱分类器组合为一个强分类器,完成分类模型的优化。4)安全事件分解与抽取:以步骤2)中的文本预处理工作为基础,先将分词后的训练样本按抽取的目标进行注释,然后将训练样本中的中文句子转换为数字向量形式以方便模型算法进行分析处理,最后采用基于触发关键字(关键词为注释中的“标记状态”)的规则抽取与隐马尔可夫模型相结合的思路,进行安全事件内容的抽取;5)安全事件之间的关联度计算:根据步骤4)中从每一安全事件抽取出的关键字,将关键词作为FP-growth算法的输入参数,构建出该安全事件的基础FP树,从该基础FP树中获得条件模式基,利用该条件模式基,再构建一个新的条件FP树,迭代重复步骤1步骤2(从当前新的条件FP树中获得条件模式基,利用条件模式基,再构建一个新的条件FP树),直到当前新的条件FP树包含一个元素项为止,即可得到关联频繁集。然后根据不同安全事件通过上述方法得到的关联频繁集中关键字的数量,来判断关联度的强弱,即某个安全事件的关联频繁集中关键字数量越多,则该安全事件的关联度越强。6)定义单位安全事件:单位安全事件(也称为原子安全事件或简单安全事件)是指在网络空间环境中,以微观角度直接观察到的、最基本的不能再分解的安全事件,任何安全事件从宏观角度都可以表示为若干个单位安全事件的并集集合。一个单位安全事件可以是某一个安全事件的原因,也可以是某一个安全事件的结果。7)安全事件的关联可视化:根据步骤5)中得到的关联度计算结果,进行不同安全事件之间强弱关系的定义,定义强弱关系区分的阈值。结合BA无标度网络演化模型的算法以及系统论中超网络的概念,提出一种基于超网络的网络安全事件连锁演化模型,模型建立步骤如下:(7a)初始化:将具体安全事件抽象为节点a,b,c,d,e,f…有限个节点。默认开始超网络只存在节点a,以及包含着与这个节点a连接的n条超边,n为自然数,超边连接与a存在直接因果关系的安全事件。(7b)超边增长:每次增加一个新的节点,根据新加入节点与超网络当前存在的节点之间的关系建立节点间的超边连接。(7c)优先连接:从a节点开始,不断加入其他节点,并从已有的超网络中的节点按照概率优先选取节点,与新加入的节点结合生成超边。根据公式每次选取连接的节点i的概率∏dH(i)等于节点i的超度dH(i)(节点的超度定义为包含该节点的超边个数)与超网络中的已有节点j的超度dH(j)总和之比,计算每次选中某个节点i的概率,i可以是a,b,c,d,e,f…中任意一个节点。最后可以得到每个节点的超边数量。(7d)根据最终的节点和超边的数量,得到事件层的关联关系,并根据实际情况在超边中加入箭头表示因果关系,同时在基础设施层(根据安全事件以及超网络多层次性的特点,可将基于安全事件的超网络模型定义为两个层次,即事件层和基础设施层,基础设施层涉及实际基础设施、地域环境以及传播载体等不同的参数因素,可以使关联可视化的结果更为)加入实际基础设施、地域环境以及传播载体等不同的参数因素。在本专利技术一个本文档来自技高网
...

【技术保护点】
1.一种基于文本处理的网络安全事件可视化方法,其步骤包括:1)获取多个网络安全事件生成一事件集合,并将该事件集合转化为一结构化特征向量;2)对每一所述网络安全事件进行分类标注;3)将每一网络安全事件中的分词按设定的抽取目标进行注释,然后根据注释抽取各网络安全事件的安全事件内容;4)根据每一网络安全事件的安全事件内容,构建出该网络安全事件的基础FP树,从该基础FP树中获得条件模式基,利用该条件模式基,再构建一个新的条件FP树,然后判断当前新的条件FP树中是否仅包含一个元素项,如果不是,则从当前新的条件FP树中获得条件模式基,利用条件模式基,再构建一个新的条件FP树,直到新的条件FP树包含一个元素项为止;得到该网络安全事件的关联频繁集;5)根据网络安全事件的关联频繁集,确定对应网络安全事件的关联度强弱以及各网络安全事件之间的连接关系,对该事件集合进行可视化。

【技术特征摘要】
1.一种基于文本处理的网络安全事件可视化方法,其步骤包括:1)获取多个网络安全事件生成一事件集合,并将该事件集合转化为一结构化特征向量;2)对每一所述网络安全事件进行分类标注;3)将每一网络安全事件中的分词按设定的抽取目标进行注释,然后根据注释抽取各网络安全事件的安全事件内容;4)根据每一网络安全事件的安全事件内容,构建出该网络安全事件的基础FP树,从该基础FP树中获得条件模式基,利用该条件模式基,再构建一个新的条件FP树,然后判断当前新的条件FP树中是否仅包含一个元素项,如果不是,则从当前新的条件FP树中获得条件模式基,利用条件模式基,再构建一个新的条件FP树,直到新的条件FP树包含一个元素项为止;得到该网络安全事件的关联频繁集;5)根据网络安全事件的关联频繁集,确定对应网络安全事件的关联度强弱以及各网络安全事件之间的连接关系,对该事件集合进行可视化。2.如权利要求1所述的方法,其特征在于,生成所述结构化特征向量的方法为:首先对每一所述网络安全事件进行分词,然后计算每一分词的TF/IDF权值,将分词TF/IDF权值大于设定阈值的分词作为特征词;然后对选出的各特征词设置编号并依据编号将各个特征词的TF/IDF权值按行写入矩阵,得到所述结构化特征向量;其中,每一网络安全事件对应一段描述该网络安全事件的文字信息。3.如权利要求2所述的方法,其特征在于,利用分类模型对每一所述网络安全事件进行分类标注,其方法为:首先使用梯度下降算法在代价函数的参数空间中搜索所述结构化特征向量中不同特征TF/IDF权值的最优解,然后根据特征的TF/IDF权值及其最优解利用反向传播算法来计算权值导数,用于计算特征与类别间联合概率分布;然后对于每一待标注的网络安全事件,依据各特征与类别间联合概率分布,分别计算在输入该待标注网络安全事件的特征时,该待标注网络安全事件属于每个类别的后验概率,将具有最大后验概率的类别k作为...

【专利技术属性】
技术研发人员:姬逸潇张玉清
申请(专利权)人:西安电子科技大学中国科学院大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1