System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法技术_技高网

基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法技术

技术编号:40945799 阅读:4 留言:0更新日期:2024-04-18 15:03
本发明专利技术公开了一种基于HPO‑BiLSTM‑CRF的网络安全漏洞知识图谱构建方法,包括:从网络空间安全领域相关数据库收集公开漏洞数据,进行预处理,构建数据集;分析提取现有数据源特征信息,构建网络安全漏洞领域本体模型CSVDO;基于优化的双向长短期记忆网络与条件随机场融合模型HPO‑BiLSTM‑CRF,实现命名实体识别与关系抽取;采用集成实体对齐方法进行知识融合,基于改进相似度度量算法对不同本体中相同对象的不同实例进行匹配,构建知识图谱;进行知识图谱嵌入,并将结果存入图数据库,完成知识图谱构建及图形可视化。本发明专利技术能提高网络安全漏洞知识中实体识别与关系抽取的效率,相较于其他图谱构建方法,该方法具有高效性和高准确性的优点。

【技术实现步骤摘要】

本专利技术属于网络安全,特别是一种基于hpo-bilstm-crf的网络安全漏洞知识图谱构建方法。


技术介绍

1、近年来,对网络漏洞的攻击和利用越来越多,互联网安全正面临严峻挑战。2021年,美国国家漏洞数据库(nvd)报告了18378个漏洞,平均每天记录50个常见漏洞与暴露(cve),创下历史新高。漏洞是指在硬件、软件、协议的具体实现或系统安全策略上存在的缺陷,从而使攻击者能够在未授权的情况下访问或破坏系统,威胁到系统或其他应用程序、数据的完整性、可用性及访问控制权限等。因此,及时分析漏洞和威胁不仅能够有效防止攻击者利用漏洞发起网络攻击,也可以帮助安全分析师更好地维护网络安全。

2、知识图谱这一技术由谷歌公司提出,该技术将语义知识用于网络搜索,以增强其搜索引擎的功能。此后,许多公司开始开发自己的知识图谱,如wikidata、yago、freebase等。知识图谱以结构化的方式描述概念、实体和实体之间的关系,将其应用于计算机安全领域,可以更好地组织、管理和利用互联网空间中的海量信息。知识图谱的体系架构分为3个部分:知识抽取、知识融合、知识计算与应用。

3、针对知识抽取方面的研究,早期主要采用人工编写规则和模板的方法来实现,耗费时间精力,且可移植性差。基于深度学习的方法对人工构造特征的依赖性大幅度降低,解决了特征提取误差传播的问题。将卷积神经网络(convolutional neural networks,cnn)模型用于命名实体识别,大幅提升了实体抽取效率,但其丢失了长距离单词的有效信息。随着注意力机制的研究,针对传统cnn无法捕捉句子中长期信息的问题,将注意力机制和不同卷积核及残差结构的cnn相融合,增强了模型捕捉上下文信息的能力。除cnn模型外,循环神经网络(rerrent neural network,rnn)模型及其变体同样在实体识别任务中被广泛应用。如长短期记忆神经网络(long short term memory,lstm)、双向长短期记忆神经网络(bi-directional-lstm)等基本模型及其改进模型,研究词嵌入、字符特征和词特征对实体识别的有效性,使实体识别准确率得到有效提升。

4、针对知识融合的研究目前主要分为本体融合和数据融合两方面,本体融合方法主要有基于自然语言处理(national language processing,nlp)的方法,现在流行的基于实例的方法,大多采用机器学习算法。数据融合包括实体合并、实体对齐、实体属性融合等方面,基于相似性传播的实体对齐将实体对齐问题转换为全局匹配评分目标优化问题,引入实体关系与属性并不断迭代发现所有的实体匹配对。基于概率模型的实体对齐方法通常利用统计关系进行计算,如条件随机场、马尔科夫逻辑网模型等。

5、近年来,常用的基于分布式特征的知识推理模型主要有trane及其变体transh、transr等翻译模型,以及基于张量分解的rescal模型、基于语义匹配的distmult模型,但都无法完美满足所有关系的建模,忽略了实体和关系的语义多样性。目前,深度神经网络也已被广泛应用于nlp领域,并取得了显著的成效。研究者设计了深度序列模型,分别用独立的rnn单元处理实体层和关系层。后又提出了基于lstm的知识图谱嵌入方法,采用lstm实体描述的句子进行编码,然后联合transe与lstm模型将实体描述的句子嵌入,从而实现知识推理。此类神经网络模型可以自动捕捉特征,通过非线性变换将输入数据从原始空间映射到另一个特征空间并自动学习特征表示,适用于知识推理抽象任务。

6、知识图谱技术提出后,国内外研究将其广泛应用于各个领域,但在网络安全领域的研究尚处于起步阶段。目前,有学者构建了一个漏洞知识图谱vulkg,使用资源描述框架(resource description framework,rdf)存储实体和关系,并映射至neo4j数据库,提出了基于知识图谱的弱点链推理方法。vulkg的主体是从nvd中提取的,但不包含关于cwe和capec的详细信息。为了解决安全信息存储在不同的知识库,难以集成所有信息以实现实时和准确的报警关联这一问题,又有学者集成了漏洞知识库、网络基础知识库和威胁知识和警报知识库,构建了统一的知识图模型。jia等人提出一种网络安全知识图谱构建方法与基于五元组模型的推演规则,文中通过机器学习方法(斯坦福命名实体识别器stanfordner)实现实体抽取,并基于构建的本体构建网络安全知识库。在国内,研究者基于网络安全领域本体提出面向漏洞库的网络安全知识库构建方法,采用基于规则的方法对漏洞相关实体进行识别,并引入实体词典到条件随机场模型进行操作系统、软件及文件三类实体识别,词典特征提高了网络安全实体识别效果,然而实体识别结果漏报率高、误报率高的问题还有待解决。

7、综上所述,知识图谱作为具备认知能力的强人工智能工具,发展已趋成熟,但在网络安全领域还存在一下问题:(1)网络安全知识图谱研究处于起步阶段,现有漏洞知识图谱不能很好地关联分析多源漏洞数据,漏洞间隐藏的丰富语义信息需要通过知识图谱进一步推理、分析;(2)网络安全漏洞相关实体识别还存在不全面、不准确的问题。本专利技术提出了一种基于hpo-bilstm-crf的网络安全漏洞知识图谱构建方法,构建全新的网络安全漏洞领域本体五元组模型csvdo;基于优化的双向长短期记忆网络与条件随机场融合模型hpo-bilstm-crf,实现命名实体识别与关系抽取,提高漏洞知识中实体识别与关系抽取的准确率,构建更全面准确的网络安全漏洞知识图谱。


技术实现思路

1、本专利技术的目的在于针对上述现有技术存在的问题,提供一种基于hpo-bilstm-crf的网络安全漏洞知识图谱构建方法,构建全新的网络安全漏洞领域本体五元组模型csvdo;基于优化的双向长短期记忆网络与条件随机场融合模型hpo-bilstm-crf,实现命名实体识别与关系抽取,提高漏洞知识中实体识别与关系抽取的准确率,构建更全面准确的网络安全漏洞知识图谱。

2、实现本专利技术目的的技术解决方案为:一方面,提供了一种基于hpo-bilstm-crf的网络安全漏洞知识图谱构建方法,包括以下步骤:

3、步骤1,通过爬虫技术从网络空间安全领域相关数据库中收集公开漏洞数据,并进行预处理,构建数据集;

4、步骤2,分析提取所述数据集中数据源的特征信息,针对目标网络构建网络安全漏洞本体模型csvdo;

5、步骤3,基于超参数优化的双向长短期记忆网络与条件随机场融合方法hpo-bilstm-crf,构建实体与关系联合提取模型,进行实体与关系联合抽取;

6、步骤4,基于改进的相似度度量算法,匹配不同本体中相同对象的不同实例,采用集成实体对齐的方法进行知识融合;

7、步骤5,利用transe模型进行知识图谱嵌入,并将结果存入图数据库,完成目标网络安全漏洞知识图谱构建及图形可视化。

8、另一方面,提供了一种基于hpo-bilstm-crf本文档来自技高网...

【技术保护点】

1.一种基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法,其特征在于,步骤2中网络安全漏洞本体定义为四元组模型,表示为式(1):

3.根据权利要求2所述的基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法,其特征在于,步骤2中所构建的网络安全漏洞本体模型CSVDO中:

4.根据权利要求1所述的基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法,其特征在于,步骤3具体为对于非结构化漏洞数据,采用端到端的方法构建基于HPO-BiLSTM-CRF的网络安全漏洞实体-关系联合提取模型,对文本数据进行实体识别与关系抽取,具体过程包括:

5.根据权利要求4所述的基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法,其特征在于,步骤3.1的具体过程如下:

6.根据权利要求5所述的基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法,其特征在于,步骤3.2的具体过程包括:

7.根据权利要求6所述的基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法,其特征在于,步骤3.3具体包括:

8.根据权利要求7所述的基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法,其特征在于,步骤3.4所述在CRF层,对漏洞描述文本的预测标签添加约束矫正,具体包括:

9.根据权利要求8所述的基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法,其特征在于,步骤4所述基于改进的相似度度量算法,匹配不同本体中相同对象的不同实例,采用集成实体对齐的方法进行知识融合,具体包括:

10.基于权利要求1至9任意一项所述方法的基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建系统,其特征在于,所述系统包括:

...

【技术特征摘要】

1.一种基于hpo-bilstm-crf的网络安全漏洞知识图谱构建方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于hpo-bilstm-crf的网络安全漏洞知识图谱构建方法,其特征在于,步骤2中网络安全漏洞本体定义为四元组模型,表示为式(1):

3.根据权利要求2所述的基于hpo-bilstm-crf的网络安全漏洞知识图谱构建方法,其特征在于,步骤2中所构建的网络安全漏洞本体模型csvdo中:

4.根据权利要求1所述的基于hpo-bilstm-crf的网络安全漏洞知识图谱构建方法,其特征在于,步骤3具体为对于非结构化漏洞数据,采用端到端的方法构建基于hpo-bilstm-crf的网络安全漏洞实体-关系联合提取模型,对文本数据进行实体识别与关系抽取,具体过程包括:

5.根据权利要求4所述的基于hpo-bilstm-crf的网络安全漏洞知识图谱构建方法,其特征在于,步骤3.1的...

【专利技术属性】
技术研发人员:庄毅孙睿涵顾晶晶刘阳
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1