融合多模型的威胁情报信息抽取方法及系统技术方案

技术编号:37449099 阅读:33 留言:0更新日期:2023-05-06 09:21
本发明专利技术属于网络空间安全技术领域,特别涉及一种融合多模型的威胁情报信息抽取方法及系统,通过构建由多模型融合的信息抽取模型并分别对多模型进行训练优化,其中,多模型包含实体抽取模型、共指消解模型及关系抽取模型;将待处理的威胁情报文档输入信息抽取模型中,利用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及;利用共指消解模型来通过实体提及融合增强实体提及表示;利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系;依据信息抽取模型获取的实体及实体间关系来构建知识图谱。本发明专利技术能够将零散分布、多源异构的安全数据组织起来,为网络安全空间的威胁建模、风险分析、攻击推理等提供技术支撑。推理等提供技术支撑。推理等提供技术支撑。

【技术实现步骤摘要】
融合多模型的威胁情报信息抽取方法及系统


[0001]本专利技术属于网络空间安全
,特别涉及一种融合多模型的威胁情报信息抽取方法及系统。

技术介绍

[0002]目前,互联网的发展进入到了一个全新的时代,万物互联早已成为现实,人类的生产生活方式受到前所未有的影响。现代IT基础设施正在遭受不同程度的网络攻击,为应对这一现状,需要对其进行持续监控,收集和处理信息,利用网络威胁情报(Cyber Threat Intelligence,CTI)进行网络防御。然而,互联网成分复杂,攻击者行为多变,安全设备日益增加,威胁情报成几何倍数增长。同时,网络威胁情报通常以自然语言的形式存在,相关实体分散在整篇文章中,实体之间存在错综复杂的关系,为情报分析、利用和共享带来了挑战。海量的告警数据为安全分析人员带来了巨大的压力,许多警报未被处理,成为了垃圾数据。因此,如何对威胁情报进行分析处理成为了一个亟待解决的关键问题。
[0003]人工分析威胁情报需要具备一定的网络安全专业知识,且费时费力,评估效率低下,难以应对与日俱增的网络攻击。鉴于其重要性,许多研究工本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合多模型的威胁情报信息抽取方法,其特征在于,包含如下内容:构建由多模型融合的信息抽取模型并分别对多模型进行训练优化,其中,进行融合的多模型包含用于抽取输入数据中实体提及的实体抽取模型、用于对实体提及进行融合处理的共指消解模型及用于抽取实体间关系的关系抽取模型;将待处理的威胁情报文档输入信息抽取模型中,首先利用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及;接着利用共指消解模型来判断实体提及是否指向同一实体进而通过实体提及融合来增强实体提及表示;然后,利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系;依据信息抽取模型获取的实体及实体间关系来构建知识图谱,利用该知识图谱来建模分析并推理出威胁情报文档中风险。2.根据权利要求1所述的融合多模型的威胁情报信息抽取方法,其特征在于,用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及,包含:首先,通过对输入文档进行分词编码处理来获取文档中单词集合及单词的上下文表示,并利用自然语言工具包来获取单词集合中每个单词的词性序列,通过将单词的上下文表示和词性序列进行嵌入链接来生成词性增强的单词表示;接着,利用多头注意力机制,通过学习单词表示不同表征子空间特征来获取单词关键上下文嵌入;然后,将单词表示输入至已训练的BiLSTM模型来获取特征向量,将单词关键上下文嵌入和特征向量进行融合,并利用线性分类器来获取用于作为实体提及的序列标签。3.根据权利要求2所述的融合多模型的威胁情报信息抽取方法,其特征在于,对输入文档进行分词编码处理中,在输入文档起始位置添加位置标记,利用分词器获取输入文档的单词集合,并通过编码器来获取单词的上下文表示。4.根据权利要求2所述的融合多模型的威胁情报信息抽取方法,其特征在于,将单词表示输入至已训练的BiLSTM模型来获取特征向量中,BiLSTM模型包括前向LSTM层,后向LSTM层和连接层,并在BiLSTM模型中,每个时间步均为一个LSTM存储单元,基于前一个时刻隐藏向量、前一个时刻存储单元向量和当前时刻输入单词嵌入来得到当前由历史信息和未来信息组成的单词特征。5.根据权利要求1所述的融合多模型的威胁情报信息抽取方法,其特征在于,利用共指消解模型来判断实体提及是否指向同一实体来进行实体融合中,利用卷积神经网络来获取每个实体提及表示的实体不同维度特征,通过池化层对实体特征进行降维和去除冗余,并利用tanh激活函数计算实体提及指向同一实体的标签概率,依据标签概率来融合上下文和实体提及。6.根据权利要求1所述的融合多模型的威胁情报信息抽取方法,其特征在于,利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间...

【专利技术属性】
技术研发人员:李勇飞郭渊博方晨常雅静刘盈泽邱俊博
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1