【技术实现步骤摘要】
一种威胁情报生成方法及装置
本申请涉及信息处理技术,尤其涉及一种基于知识图谱的威胁情报生成方法及装置。
技术介绍
近年来,网络攻击事件频发,影响范围越来越广,且网络攻击技术不断提高,更具威胁的零日(0day)攻击、高级持续性威胁(AdvancedPersistentThreat,APT)攻击等攻击手段层出不穷,传统的基于规则匹配的静态安全防护措施(如防火墙、入侵检测系统(IntrusionDetectionSystems,IDS))很难对这种新型未知攻击进行有效识别与拦截。为了应对此类新型的网络攻击,学术界和产业界提出了基于威胁情报的主动防御方法。然而,现有的技术主要存在以下两点不足,其一,威胁情报的实体识别与关系抽取准确率达不到预期效果,其二,从单篇文档中抽取的威胁情报仅携带极少量的上下文信息,这种孤立的入侵指标(IndicatorsOfCompromise,IOC)很难被安全人员理解并应用到防护系统中。
技术实现思路
为解决上述技术问题,本申请实施例提供了一种威胁情报生成方法及装置。本申请实施例提供的威胁情报的生成方法,包括:采集多种类型的安全事件的描述文本,以及 ...
【技术保护点】
1.一种威胁情报的生成方法,其特征在于,所述方法包括:采集多种类型的安全事件的描述文本,以及采集漏洞库和利用数据库;使用正则表达式从所采集的描述文本中过滤掉第一类描述文本,得到第二类描述文本,所述第一类描述文本不包含威胁字段,所述第二类描述文本包含威胁字段;使用卷积神经网络对所述第二类描述文本进行分类,得到真正的威胁情报文本和假正例威胁情报文本;从所述真正的威胁情报文本中提取实体并抽取实体之间的关系,并基于所述实体和实体之间的关系生成三元组信息;基于所述三元组信息,生成威胁情报知识图谱。
【技术特征摘要】
1.一种威胁情报的生成方法,其特征在于,所述方法包括:采集多种类型的安全事件的描述文本,以及采集漏洞库和利用数据库;使用正则表达式从所采集的描述文本中过滤掉第一类描述文本,得到第二类描述文本,所述第一类描述文本不包含威胁字段,所述第二类描述文本包含威胁字段;使用卷积神经网络对所述第二类描述文本进行分类,得到真正的威胁情报文本和假正例威胁情报文本;从所述真正的威胁情报文本中提取实体并抽取实体之间的关系,并基于所述实体和实体之间的关系生成三元组信息;基于所述三元组信息,生成威胁情报知识图谱。2.根据权利要求1所述的方法,其特征在于,所述采集多种类型的安全事件的描述文本,包括:从多种类型的数据源采集所述多种类型的安全事件的描述文本;其中,所述描述文本属于非结构化数据。3.根据权利要求1所述的方法,其特征在于,所述使用正则表达式从所采集的描述文本中过滤掉第一类描述文本,得到第二类描述文本,包括:根据开放入侵指标OpenIOC词表,确定正则表达式;基于所述正则表达式从所采集的描述文本中过滤掉不包含威胁字段的第一类描述文本,得到包含威胁字段的第二类描述文本。4.根据权利要求1所述的方法,其特征在于,所述使用卷积神经网络对所述第二类可能包含威胁情报的描述文本进行分类,得到真正的威胁情报文本和假正例威胁情报文本,包括:使用词向量word2vec工具将所述第二类描述文本转换为向量;对转换得到的向量进行卷积操作和最大池化操作,并将池化后的向量拼接成一个全连接向量;使用Sigmoid激活函数对所述全连接向量进行分类处理,基于分类结果确定所述第二类描述文本是属于真正的威胁情报文本还是属于假正例威胁情报文本。5.根据权利要求1所述的方法,其特征在于,所述从所述真正的威胁情报文本中提取实体并抽取实体之间的关系,并基于所述实体和实体之间的关系生成三元组信息,包括:利用自然语言处理工具NLTK从所述真正的威胁情报文本中提取实体并抽取实体之间的关系,并基于所述实体和实体之间的关系生成三元组信息<实体,关系,实体>;对所述三元组信息进行存储。6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于所...
【专利技术属性】
技术研发人员:李建欣,赵军,何祖逖,朱天晨,顾展鹏,张日崇,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。