一种网络安全知识图谱构建方法及系统技术方案

技术编号：35231567 阅读：127 留言：0更新日期：2022-10-15 10:53

本发明专利技术提供网络安全知识图谱构建方法及系统，应用于网络安全领域，包括：构建网络安全领域本体模型，所述模型定义为CDO模型，其中CDO模型包括：网络安全领域类的集合、实体集合和类与类之间关系的集合；从互联网中获取结构化数据、半结构化数据和非结构化文本数据；从结构化数据、半结构化数据和非结构化文本数据进行知识抽取得到网络安全实体、属性及关系；将网络安全实体、属性和关系基于CDO模型存储到图数据库，完成网络安全知识图谱的构建。通过准确描述网络安全事件的事理逻辑关系，考虑漏洞、威胁等多维度知识，描述网络安全事件的演化规律和模式，结合知识抽取技术构建知识图谱，提高网络安全分析的准确率和智能化水平。提高网络安全分析的准确率和智能化水平。提高网络安全分析的准确率和智能化水平。

全部详细技术资料下载

【技术实现步骤摘要】
一种网络安全知识图谱构建方法及系统

[0001]本专利技术涉及网络安全领域，更具体地，涉及一种网络安全知识图谱构建方法及系统。

技术介绍

[0002]知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互关系。知识图谱通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论，为学科研究提供切实的、有价值的参考。
[0003]网络安全知识图谱用于描述客观网络空间中的概念、实体、事件及其关系，是知识图谱在网络安全领域的应用。现有技术对网络安全知识图谱构建的方法和应用，大都注重实体概念及关系组织管理，缺乏对概念之间逻辑关系和威胁本质的考虑，缺少攻击事件动态演化、预测和推理，而且由于知识来源不同，有些侧重威胁情报、有些侧重漏洞分析，所建立的知识图谱具有以下局限性：无法多维度地考虑到漏洞和...

【技术保护点】

【技术特征摘要】
1.一种网络安全知识图谱构建方法，其特征在于，包括：构建网络安全领域本体模型，所述模型定义为CDO模型，CDO=(C,I,R)，其中CDO表示网络安全领域本体，C={c1，c2，
…
c
x
…
,c
m
}表示网络安全领域类的集合，m表示网络安全领域类集合的类数量，c
x
为某种网络安全领域类；I={i1，i2，
…
i
x
…
,i
n
}表示实体集合，n表示实体数量，i
x
表示某个网络安全领域类的实体；R={r1，r2，
…
r
x
…
,r
l
}表示类与类之间关系的集合，l表示网络安全领域类与类的关系数量，r
x
表示某一种类与类的关系；从互联网中获取结构化数据、半结构化数据和非结构化文本数据；从结构化数据、半结构化数据和非结构化文本数据进行知识抽取得到网络安全实体、属性及关系；将网络安全实体、属性和关系基于CDO模型存储到图数据库中，完成网络安全知识图谱的构建。2.根据权利要求1所述的网络安全知识图谱构建方法，其特征在于，所述半结构化数据包括事件数据；所述事件数据包括安全事件告警信息，其通过OSSIM 平台从不同的安全设备上获取。3.根据权利要求2所述的网络安全知识图谱构建方法，其特征在于，网络安全领域类的集合C包括与网络资产相关的类、与脆弱性相关的类、与攻击相关的类、与观测指标相关的类和与情报相关的类；所述与网络资产相关的类的集合表示为Class(Assets)={Host, Network Equipment, Safety Equipment, Hardware, OS, Software, Network, IP, Port}；其中，Host表示主机类，Network Equipment表示网络设备类，Safety Equipment表示安全设备类，Hardware表示硬件类，OS表示操作系统类，Software表示软件类，Network表示互联网类，IP表示IP地址类，Port表示端口类；所述与脆弱性相关的类的集合表示为Class(Fragility)={Vulnerability, Weakness}；其中，Vulnerability表示漏洞类，Weakness表示弱点类；所述与攻击相关的类的集合表示为Class(Attack)={Attacker, Mean, Tool, Malware, Consequence}；其中，Attacker表示攻击者类，Mean表示攻击方法类，Tool表示攻击工具类， Malware表示恶意软件类， Consequence表示攻击结果类；所述与情报相关的类的集合表示为Class(Intelligence)={Event, Threat intelligence}，其中，Event表示安全事件类，Threat intelligence表示威胁情报类；从半结构化数据中进行知识抽取得到网络安全实体、属性及关系，包括从事件数据中进行知识抽取得到网络安全实体、属性及关系；所述从事件数据中进行知识抽取得到网络安全实体、属性及关系，具体包括：设所述CDO模型中主机类集合为H={h1，h2，h3,
…
h
i
…
,h
a
}，其中h
i
表示第i台主机，a表示主机数量；
每个安全事件告警信息含有源IP、源端口、目的IP、目的端口、事件、漏洞类和时间；提取每台主机发生的安全事件对应的安全事件告警信息，得到每台主机预处理后的安全事件流为E={Emsg1，Emsg2，Emsg3,
…
Emsg
i
…
,Emsg
b
}，Emsg
i
表示安全事件，b表示有b个安全事件；对于安全事件Emsg
i
，通过在图数据库中检索该安全事件的目的IP 对应的主机h
j
是否存在；如果不存在，则丢弃该安全事件；否则从图数据库中检索该安全事件的目标 IP 对应的主机h
j
；从图数据库中获取所述主机h
j
存在的漏洞属性集，记为Vuls
Host
；将安全事件Emsg
i
中的漏洞类赋值给集合Vuls
Event
；如果Vuls
Event
为空则构建事件实体，根据安全事件Emsg
i
中的信息生成该事件实体的属性信息写入图数据库；如果Vuls
Event
不为空，则判断Vuls
Event
∩Vuls
Host
是否是空集，若是则标记所述安全事件为虚假警报并过滤；若否则构建事件实体，根据安全事件Emsg
i
中的信息生成该事件实体的属性信息写入图数据库。4.根据权利要求1
‑
3任一项所述的网络安全知识图谱构建方法，其特征在于，从非结构化文本数据进行知识抽取得到网络安全实体、属性及关系，具体包括：利用非结构化文本数据抽取模型对非结构化文本数据进处理得到自动化标注数据；根据得到的自动化标注数据抽取得到对应的网络安全实体、属性及关系。5.根据权利要求4所述的网络安全知识图谱构建方法，其特征在于，所述非结构化文本数据抽取模型的训练方法包括：预定义应用于网络安全的文本标签集，文本标签集中包括若干个标签；获取非结构化文本数据样本形成以句子为单位的语料数据样本集；基于文本标签集对语料数据样本集进行人工标注得到对应的人工标注数据集；将语料数据样本集和人工标注数据集进行预处理分别转化成数字矩阵集；将语料数据样本集和人工标注数据集对应的数字矩阵集均对应地分为训练集和测试集；将训练集输入到利用神经网络构建的非结构化文本数据抽取模型中进行训练，得到收敛的非结构化文本数据抽取模型，并利用测试集对非结构化文本数据抽取模型进行验证。6.根据权利要求5所述的网络安全知识图谱构建方法，其特征在于，所述实体分为主体和客体；所述文本标签集表示为CyberTag，CyberTag = { O , BS1 , IS1 , ES1 , SS1 , BS2 , IS2 , ES2 , SS2 , has , exploit , belong , threat },O , BS1 , IS1 , ES1 , SS1 , BS2 , IS2 , ES2 , SS2 , has , exploit , belong , threat均为文本标签集中的标签；其中文本标签集中O代表威胁情报类以外的其他安全领域类中的实体的文本字符，BS代表威胁情报类中的实体属性文本字符的开始位置，IS代表威胁情报类中的实体属性文本字符的中间位置，ES代表威胁情报类中的实体属性文本字符的结尾位置，SS代表单个文本字符的威胁情报类中的实体属性，所述文本字符为汉字或英文单词；威胁情报类中的实体
属性位置由数字“1”和“2”表示， 1表示主体属性，2表示客体属性；has、exploit、belong和threat为威胁情报类中实体的关系属性的值，has代表主体与客体的关系是拥有或存在；exploit代表主体与客体的关系是利用，belong代表主体与客体的关系是属于，threat代表主体与客体的关系是威胁和攻击；所述基于文本标签集对语料数据样本集进行人工标注得到对应的人工标注数据集，具体包括：根据文本标签集中的标签判定语料数据...

【专利技术属性】
技术研发人员：郑伟发，谢文亮，蔡梓涛，程培宇，
申请(专利权)人：广东财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人