一种应用于网络安全威胁情报的情报关联度计算方法技术

技术编号:36846094 阅读:15 留言:0更新日期:2023-03-15 16:28
本发明专利技术公开了一种应用于网络安全威胁情报的情报关联度计算方法,包括威胁情报图谱构建,基于STIX格式,对结构化半结构化数据进行提取,文章图谱抽取,实体归一化处理,词级比对,实体关联度计算和综合计分模块,对前述关联度计算进行综合计分,并录入数据库记录两篇情报文章的关联度。本发明专利技术提取文章之间的隐性关联,通过知识抽取提取情报核心内容,威胁情报知识图谱推理核心内容潜在关联来计算两份情报的关联度,包含不同名实体归一化处理,词级匹配,实体关联度计算,综合计分模块,通过三元组直接匹配计分,图谱识别不同名同实体计分及恶意软件、漏洞关联程度计分三个维度对情报关联程度进行计算。关联程度进行计算。关联程度进行计算。

【技术实现步骤摘要】
一种应用于网络安全威胁情报的情报关联度计算方法


[0001]本专利技术属于网络安全
,具体涉及一种应用于网络安全威胁情报的情报关联度计算方法。

技术介绍

[0002]目前网络安全问题已成为各级政府、行政机关、事业单位、企业、非盈利组织等单位必须面对的问题。面对日益增多的网络威胁,对单位软件,硬件,系统针对性的进行防护是各单位的必要措施。在对单位数字资产防护之前,首先单位需要知道对什么进行防护,这就体现了网络安全威胁情报的重要性。然而,面对浩如烟海的网络安全威胁情报,获取网络安全威胁事件的全貌即成为了非常重要的事情。单一情报源的情报仅从一个角度描述事件,难以展现事件情报全貌,所以计算情报的关联度来整合关联的情报成为了网络安全事件分析必不可少的一环。
[0003]主流的关联情报整合方式有两种,第一种是人工整合,网络安全威胁情报内容点多面广、信息量庞大、时效性要求高,仅靠人工检查无法达到要求。第二种是基于机器学习的方法,包括基于内容推荐,关键词等方式。这种方式大多基于文本内容直接比对的关联性来进行关联内容判断,然而网络安全威胁情报中特殊的关联性这些方法难以涉及。例如:某个威胁组织叫Sofacy,同时这个组织也叫APT 28,Fancy bear,奇幻熊等多个名字,不同的情报文章会使用不同的名字,单纯的使用词或者文本关联度的方法难以处理字段完全不同但为同一实体的关联。同时,传统方法也难以处理文章实体之间通过第三实体为桥梁产生的关联。例如:两篇情报文章分别提到了两个漏洞CVE

2018
>‑
0001和CVE

2020

1234,两个漏洞字面上不存在关联,但是根据威胁情报知识图谱可知两个漏洞都存在于同一个软件中,这种隐性关联传统方法无法识别。

技术实现思路

[0004]针对目前主流的关联情报整合方式中关于隐性关联传统方法无法识别的问题,本专利技术提供一种应用于网络安全威胁情报的情报关联度计算方法,提取文章之间的隐性关联,通过知识抽取提取情报核心内容,威胁情报知识图谱推理核心内容潜在关联来计算两份情报的关联度。
[0005]本专利技术解决其技术问题所采用的方案是:一种应用于网络安全威胁情报的情报关联度计算方法,包括以下步骤。
[0006]第一步,威胁情报图谱构建:
[0007]基于STIX格式,对结构化半结构化数据进行提取,包括不限于CVE,CPE,ATT&CK等数据集。
[0008]第二步,文章图谱抽取:
[0009]基于BERT

BiLSTM

CRF进行命名实体识别,获取实体后通过Pipeline的方式,通过R

bert模型进行关系抽取。
[0010]第三步,实体归一化处理:
[0011]威胁情报知识图谱中,同实体不同名称的实体类型包括恶意组织和恶意软件,首先提取文章情报三元组中的恶意组织及恶意软件实体,其次遍历威胁情报图谱中对应类实体及实体其他名称,最后定位实体,将文章情报三元组中对应的实体转为标准实体。
[0012]基于威胁情报图谱中别名数据,将所有别名转换为{别名:标准实体},将所有恶意组织别名及文章中抽取的恶意组织实体转换为向量,并计算两组数据每个别名与实体之间的余弦相似度;完成余弦相似度计算后找到与恶意组织实体余弦相似度最高的恶意组织别名,若余弦相似度大于0.9,根据上述数据的K_V关系,将文章恶意组织实体转换为标准实体。
[0013]恶意软件通过相同的处理流程进行归一化处理,将抽取的恶意软件实体转换为恶意软件的标准实体。
[0014]通过余弦相似度及威胁情报知识图谱对文章抽取的内容进行归一化处理,从而获取实体之间的潜在关联。
[0015]第四步,词级比对:
[0016]完成关键词归一化处理之后进行词级比对。
[0017]首先对两个文章的关键词进行一一匹配,每匹配到一组关键词,计分模块增加一分,并将该组关键词从关键词组内移除。
[0018]第五步,实体关联度计算:
[0019]在前一步骤去除掉可完全匹配的实体后,剩余实体进行关联度计算来识别情报之间的潜在关系。
[0020]第六步:还包括综合计分模块:
[0021]总分=归一化实体匹配对数*1+恶意软件关联度*1+漏洞关联基础设施匹配对数*0.1+基础设施供应商匹配对数*0.1+恶意组织关联度*1,该模块对前述关联度计算进行综合计分,并录入数据库记录两篇情报文章的关联度。
[0022]文章图谱抽取过程中,基于BERT

BiLSTM

CRF进行命名实体识别是利用BERT预训练模型获得相应词向量,之后把词向量输入BiLSTM层进一步提取文本的上下文关系,最终通过CRF层获得分类结果。
[0023]其中,输入为字序列,输出为每个单词对应的预测标签,分类提取即获得实体。
[0024]获取实体后通过Pipeline的方式,通过R

bert模型进行关系抽取,是将BERT模型应用在关系分类上;先在目标实体的位置前后插入特殊的标记,然后将文本输入BERT进行fine

tuning,以识别两个目标实体的位置并将信息传给BERT模型;之后在BERT模型的输出词向量中找到两个目标实体的位置;使用词向量和句子编码作为多层神经网络分类的输入,通过这种方式,能捕获句子和两个目标实体的语义信息,以更好地适应关系分类任务。
[0025]实体关联度计算过程中,针对恶意软件,该模块通过计算恶意软件实现的攻击方式的共通性来发掘恶意软件实体之间的潜在关联度,在完成归一化处理后,文章中恶意软件实体可直接与威胁情报知识图谱中的恶意软件实体关联,然后通过威胁情报知识图谱中恶意软件可实现的攻击方式来计算恶意软件的关联度。
[0026]实体关联度计算过程中,针对漏洞,该模块通过判断漏洞是否存在于相同的基础设施中来发掘漏洞实体之间的潜在关联度,从威胁情报知识图谱中可提取漏洞与硬件、软
件、操作系统的关系,通过威胁情报知识图谱提取与两篇情报文章中漏洞相关的硬件、软件、操作系统并进行匹配,每匹配到一对相同的硬件、软件和操作系统,计分模块增加0.1分。
[0027]实体关联度计算过程中,针对基础设施部分,该模块通过判断基础设施实体是否为同一厂商产品来发掘基础设施之间的潜在关联度,从威胁情报知识图谱中可提取基础设施关联的供应商关系,通过相同的供应商来判断基础设施潜在关系,每一对匹配的厂商计分模块增加0.1分。
[0028]实体关联度计算过程中,针对恶意组织,该模块通过恶意组织常用攻击手段和恶意软件来发掘恶意组织之间的潜在关联度,从威胁情报知识图谱中可提取恶意组织和攻击手段、恶意软件的关系,通过匹配两个恶意组织相同的攻击手段、恶意软件,计算恶意组织关联度。
[0029]本专利技术的有益效果:
[0030]本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种应用于网络安全威胁情报的情报关联度计算方法,其特征在于,包括以下步骤:第一步,威胁情报图谱构建:基于STIX格式,对结构化半结构化数据进行提取,包括不限于CVE,CPE,ATT&CK等数据集;第二步,文章图谱抽取:基于BERT

BiLSTM

CRF进行命名实体识别,获取实体后通过Pipeline的方式,通过R

bert模型进行关系抽取;第三步,实体归一化处理:威胁情报知识图谱中,同实体不同名称的实体类型包括恶意组织和恶意软件,首先提取文章情报三元组中的恶意组织及恶意软件实体,其次遍历威胁情报图谱中对应类实体及实体其他名称,最后定位实体,将文章情报三元组中对应的实体转为标准实体;基于威胁情报图谱中别名数据,将所有别名转换为{别名:标准实体},将所有恶意组织别名及文章中抽取的恶意组织实体转换为向量,并计算两组数据每个别名与实体之间的余弦相似度;完成余弦相似度计算后找到与恶意组织实体余弦相似度最高的恶意组织别名,若余弦相似度大于0.9,根据上述数据的K_V关系,将文章恶意组织实体转换为标准实体;恶意软件通过相同的处理流程进行归一化处理,将抽取的恶意软件实体转换为恶意软件的标准实体;通过余弦相似度及威胁情报知识图谱对文章抽取的内容进行归一化处理,从而获取实体之间的潜在关联;第四步,词级比对:完成关键词归一化处理之后进行词级比对;首先对两个文章的关键词进行一一匹配,每匹配到一组关键词,计分模块增加一分,并将该组关键词从关键词组内移除;第五步,实体关联度计算:在前一步骤去除掉可完全匹配的实体后,剩余实体进行关联度计算来识别情报之间的潜在关系。2.根据权利要求1所述的的情报关联度计算方法,其特征在于,还包括综合计分模块,总分=归一化实体匹配对数*1+恶意软件关联度*1+漏洞关联基础设施匹配对数*0.1+基础设施供应商匹配对数*0.1+恶意组织关联度*1,该模块对前述关联度计算进行综合计分,并录入数据库记录两篇情报文章的关联度。3.根据权利要求1所述的的情报关联度计算方法,其特征在于,文章图谱抽取过程中,基于BERT

BiLSTM

CRF进行命名实体识别是利用BERT预训练模型获得相应词向量,之后把词向量输入BiLSTM层进一步提取文本的上下文...

【专利技术属性】
技术研发人员:吴琼方澄翟立东吕志赵耀孙璞
申请(专利权)人:中科大数据研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1