一种基于知识图谱的网络威胁评估方法技术

技术编号:37522157 阅读:12 留言:0更新日期:2023-05-12 15:45
本发明专利技术涉及工业互联网网络安全领域,具体公开了一种基于知识图谱的网络威胁评估方法,包括:从非结构高级持续威胁APT报告中手工标记部分网络信息实体和关系,得到训练集;利用预先训练的BERT语言模型,并从目标实体中提取信息来建立实体关系分类模型;利用关系分类模型,得到网络威胁信息实体关系对,并构建网络威胁知识图谱;最后,考虑知识图谱中的知识不可能是完全正确的,据此建立了一个知识图可信度度量模型,量化了所构建知识图谱的语义正确性和事实表达的真实程度。综上所述,所提出的方法既实现了网络威胁知识图谱的构建,并且可以对所构建知识图谱的可信度进行高效评价。以对所构建知识图谱的可信度进行高效评价。以对所构建知识图谱的可信度进行高效评价。

【技术实现步骤摘要】
一种基于知识图谱的网络威胁评估方法


[0001]本专利技术涉及工业互联网网络安全领域,尤其涉及一种基于知识图谱的网络威胁评估方法。

技术介绍

[0002]网络威胁正以快速的速度发展,这促使安全分析师动态地利用各种自然语言处理(NLP)技术作为防御、识别、分析以及可能减轻各种网络安全攻击的手段。这包括文本记忆,信息提取和命名实体识别(NER)。为了了解不同的网络攻击的手段和后果,安全专业人士依靠以前的报告,如安全公告或在线报告,以更好地掌握手中的威胁。如CN115186015A公开了一种网络安全知识图谱构建方法及系统,包括:构建网络安全领域本体模型,从互联网中获取文本数据;进行知识抽取得到网络安全实体、属性及关系;并基于CDO模型存储到图数据库,完成网络安全知识图谱的构建。CN113282759A公开了一种基于威胁情报的网络安全知识图谱生成方法,包括通过分布式威胁情报爬取系统进行网络安全威胁情报数据集制作,对制作的网络安全威胁情报数据集进行网络安全实体识别、关系抽取和数据组织。但上述的报告通常以非结构化的方式存储,难以实现高效的信息检索,因而不能满足现有网络威胁应对的需求。

技术实现思路

[0003]为了解决上述问题,本专利技术提供一种基于知识图谱的网络威胁评估方法,用以构建网络威胁的知识图谱,从非结构高级持续威胁(APT)报告中手工标记部分网络信息实体和关系,得到关系分类模型训练集;利用预先训练的BERT语言模型,并从目标实体中提取信息来建立实体关系分类模型;并对构建的知识图谱进行了多重可信度评估,即考虑知识图谱中的知识不可能是完全正确的,据此建立了一个知识图谱可信度度量模型,量化了所构建知识图谱的语义正确性和事实表达的真实程度,最终得到可靠的网络威胁知识图谱并以此来对网络威胁进行评估。
[0004]本专利技术完整的技术方案包括:一种基于知识图谱的网络威胁评估方法,包括以下步骤:步骤S1,从非结构高级持续威胁报告中人工标记网络信息目标实体和关系,得到实体关系分类模型训练集;步骤S2,利用预先训练的BERT语言模型,对步骤S1得到的实体关系分类模型训练集从目标实体中提取信息以建立实体关系分类模型;步骤S3,利用实体关系分类模型,得到网络威胁信息实体关系对,并构建第一网络威胁知识图谱;步骤S4,建立知识图谱可信度度量模型,对所构建的第一网络威胁知识图谱的语义正确性和事实表达的真实程度进行量化,并得到第二网络威胁知识图谱;步骤S5:利用步骤S4得到的第二网络威胁知识图谱对网络威胁进行评估。
[0005]进一步的,所述步骤S1,人工标记网络信息目标实体和关系包括:从公开的网络威胁报告中,对1万条网络威胁记录中的目标实体和关系对进行人工标记,得到了12种基本的关系类型,并生成实体关系分类模型训练集。
[0006]进一步的,所述步骤S2,所述的实体关系分类模型,对于具有两个目标实体的句子,在第一个实体即头实体的开始和结束处,插入标记,在第二个实体即尾实体的开始和结束处,插入标记,并在每个句子的开头加上标记

CLS

;将BERT语言模型中头实体的最终隐藏状态输出、尾实体的最终隐藏状态输出,关系的最终隐藏状态输出连接,并添加一个全连接层和Softmax层,并以交叉熵损失作为损失函数,得到关系实体分类模型。
[0007]进一步的,所述步骤S3,利用实体关系分类模型,得到网络威胁信息实体关系对,并构建第一网络威胁知识图谱,包括:得到网络威胁信息实体关系对后,利用JenusGraph软件生成网络威胁知识图谱,并对实体关系对进行细化,所述细化包括删除冗余和模糊信息,以及实体融合;具体为在识别和删除非必要的单词后,将相同的实体合并在一起,只保留有信息的实体,从而构建得到第一网络威胁知识图谱。
[0008]进一步的,所述步骤S4,所述的知识图谱可信度度量模型,包括检验实体之间是否存在某种关系以及某个确定的关系是否可以出现在头尾实体对中。
[0009]进一步的,所述检验实体之间是否存在某种关系,采用给定实体对之间的关联强度来衡量在实体对之间发生未确定关系的可能性,具体为:以头实体为中心构造有向图;迭代知识图谱中的信息流直到其收敛,计算尾实体的资源保留数量;整合其他特征信息,计算头实体和尾实体的相似度。
[0010]进一步的,以从头实体通过所有相关路径传递到尾实体的资源数量表示实体对之间的关联强度。
[0011]进一步的,所述某个确定的关系是否可以出现在头尾实体对中,采用基于自注意力transformer编解码器算法,判断某个确定关系下,头实体连接到某个尾实体的概率。
[0012]进一步的,所述transformer编解码器算法包括:对第一网络威胁知识图谱中的头实体、尾实体和关系进行嵌入向量编码;将实体关系对中的头实体和关系作为输入向量传输到transformer编码器中,生成头实体和关系的低维表达形式;基于上述低维表达形式,对尾实体进行评分;应用sigmoid函数将尾实体的得分进行概率表示,当概率高于阈值时,则认为实体关系对是正确的。
[0013]本专利技术相对于现有技术的有益效果:(1)本专利技术实现了网络威胁知识图谱的构建,手工标记部分网络信息实体和关系,利用预先训练的BERT语言模型,并从目标实体中提取信息来建立实体关系分类模型,与以往网络安全实体关系分类模型相比,具备较高的实体关系分类精度。
[0014](2)本专利技术对构建的知识图进行了多重可信度评估,包括检验实体之间是否存在某种关系以及某个确定的关系是否可以出现在头尾实体对中。使用给定实体对之间的关联强度来衡量在对之间发生未确定关系的可能性,提出了一种基于自注意力transformer编
解码器算法检验某个确定的关系是否可以出现在某头尾实体对中,实现了较高精度的知识图谱质量评估。
附图说明
[0015]图1为本专利技术的网络威胁知识图谱的构建流程示意图。
[0016]图2为本专利技术的知识图谱可信度度量模型架构。
[0017]图3为本专利技术生成的网络威胁知识图谱的示意图。
具体实施方式
[0018]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]图1示出了本专利技术提供的网络威胁知识图谱的构建流程示意图,包括:S1,从非结构高级持续威胁(APT)报告中人工标记部分网络信息目标实体和关系,得到实体关系分类模型训练集;在本专利技术实施例中,从公开的网络威胁报告中,对1万条网络威胁记录中的目标实体及其关系对进行了人工标记,并得到了12种基本的关系类型,生成实体关系分类模型训练集。而现有技术中目前公开的网络威胁实体关系对训练集,是利用一个神经网络安全命名实体识别器(NER)对威胁评估报告中的实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的网络威胁评估方法,其特征在于,包括以下步骤:步骤S1,从非结构高级持续威胁报告中人工标记网络信息目标实体和关系,得到实体关系分类模型训练集;步骤S2,利用预先训练的BERT语言模型,对步骤S1得到的实体关系分类模型训练集从目标实体中提取信息以建立实体关系分类模型;步骤S3,利用实体关系分类模型,得到网络威胁信息实体关系对,并构建第一网络威胁知识图谱;步骤S4,建立知识图谱可信度度量模型,对所构建的第一网络威胁知识图谱的语义正确性和事实表达的真实程度进行量化,并得到第二网络威胁知识图谱;步骤S5:利用步骤S4得到的第二网络威胁知识图谱对网络威胁进行评估。2.根据权利要求1所述的一种基于知识图谱的网络威胁评估方法,其特征在于,所述步骤S1,人工标记网络信息目标实体和关系包括:从公开的网络威胁报告中,对1万条网络威胁记录中的目标实体和关系对进行人工标记,得到了12种基本的关系类型,并生成实体关系分类模型训练集。3.根据权利要求2所述的一种基于知识图谱的网络威胁评估方法,其特征在于,所述步骤S2,所述的实体关系分类模型,对于具有两个目标实体的句子,在第一个实体即头实体的开始和结束处,插入标记,在第二个实体即尾实体的开始和结束处,插入标记,并在每个句子的开头加上标记

CLS

;将BERT语言模型中头实体的最终隐藏状态输出、尾实体的最终隐藏状态输出,关系的最终隐藏状态输出连接,并添加一个全连接层和Softmax层,并以交叉熵损失作为损失函数,得到关系实体分类模型。4.根据权利要求3所述的一种基于知识图谱的网络威胁评估方法,其特征在于,所述步骤S3,利用实体关系分类模型,得到网络威胁信息实体关系对,并构建第一网络威胁知识图谱,包括:得到网络威胁信息实体关系对后,利用...

【专利技术属性】
技术研发人员:吕金虎孙楠王薇刘克新池程谢滨石泽
申请(专利权)人:中国信息通信研究院中国科学院数学与系统科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1