一种IoC自动抽取与挖掘方法与系统技术方案

技术编号:28871797 阅读:19 留言:0更新日期:2021-06-15 23:04
本发明专利技术公开了一种IoC自动抽取与挖掘方法,涉及计算机网络安全领域,包括词嵌入层、序列表示层、全连接层,序列表示层包括双向LSTM网络、注意力机制和上下文特征,基于该方法,本发明专利技术还公开了IoC自动抽取与挖掘系统,包括文本自动获取模块、非结构化文本预处理模块、攻击指标(IoC)提取模块、IoC数据库和IoC短语匹配库。本发明专利技术针对非结构化文本,利用正则匹配和双向长短期记忆网络的组合算法,结合注意力机制和上下文内容特征,进一步提高了IoC提取的准确率和有效率。

【技术实现步骤摘要】
一种IoC自动抽取与挖掘方法与系统
本专利技术涉及计算机网络安全领域,尤其涉及一种IoC(攻击指标,IndicatorofCompromise)自动抽取与挖掘方法与系统。
技术介绍
近年来,随着网络技术的快速发展,网络上的安全威胁也在增加。网络安全专家和分析师们通过积极地在公共平台上交换威胁情报来跟进对这些威胁的研究和防范。威胁情报是基于证据的知识,它是围绕着现存的或者即将对资产发生威胁和危害的信息,包括了上下文、机制、指标、含义或者以行动为中心的建议。这种情报可用于告知受害对象,让他们能够针对这样的威胁和危害进行决策。这些威胁情报大多为描述性文本包涵了关键信息(例如,僵尸网络IP,恶意软件的签名等)。这些信息通过文章、博文或是白皮书的形式呈现出来。更进一步,这些信息能够被转化成结构化信息,即攻击指标(IoC,IndicatorofCompromise),参照OpenIoC(OpenIndicatorofCompromise)标准、STIX(StructuredThreatInformationExpression)标准等。这有利于计算机进行分析,并且基于此快速开发出应对威胁的方案。随着计算机应用领域的不断扩大,自然语言处理受到了人们的高度重视。机器翻译、语音识别以及信息检索等应用需求对计算机的自然语言处理能力提出了越来越高的要求。为了使计算机能够处理自然语言,首先需要对自然语言进行建模。自然语言建模方法经历了从基于规则的方法到基于统计方法的转变。在对统计语言模型进行研究的背景下,Google公司在2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式。Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Skip-gram模型是在给出目标单词(中心单词)的情况下,预测它的上下文单词出现的概率。循环神经网络(RecurrentNeuralNetwork,RNN)在自然语言处理(NaturalLanguageProcessing,NLP)的文本处理上取得了很大的成功,但RNN是单向的,是根据前面的信息推出后面的,但有时候只看前面的词是不够的,不仅要看上文,还需要看下文。Bi-LSTM,即双向LSTM(LongShort-TermMemory),较单向的LSTM,能更好地捕获句子中上下文的信息,从而使得分类效果更佳。由于海量的非结构化威胁情报在各个平台上由若干专业人士上传,这些信息通常是描述性的语言。由于专业的分析专家精力和时间的限制,这些数量庞大的信息和报告无法被立即获得和分析,获得后也要耗费时间对其可信度进行判断,就延误了对威胁的处理和进一步的应对,如此便可能造成被攻击的潜在目标的损失。因此,本领域的技术人员致力于开发一种IoC自动抽取与挖掘方法与系统,基于人工智能对IoC进行自动抽取与挖掘。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是是收集和提取威胁报告文本中的IoC,从而帮助分析员对海量威胁情报进行收集、处理和提取关键信息,提高安全事件分析员的分析效率和对于安全事件的洞察力。为实现上述目的,本专利技术提供了一种IoC自动抽取与挖掘方法,包括词嵌入层、序列表示层、全连接层;词嵌入层将输入词语转换为词向量;序列表示层为双向LSTM(LongShort-TermMemory)结构;全连接层对词嵌入层和序列表示层的输出进行综合,输出表示是否为有效IoC。进一步地,词嵌入层采用Word2Vec中的Skip-Gram算法进行训练。进一步地,序列表示层还包括注意力机制。进一步地,序列表示层还包括上下文特征。进一步地,序列表示层在每个句子输入之前,对双向LSTM结构中的隐藏层的权值置零。本专利技术还提供了一种IoC自动抽取与挖掘系统,采用以上方法,包括文本自动获取模块、非结构化文本预处理模块、IoCTerm匹配库、IoC提取模块、IoC数据库;文本自动获取模块收集IoC文本信息;非结构化文本预处理模块对IoC文本信息进行清洗;IoCTerm(IoC短语)匹配库存储IoCTerm;IoC提取模块提取IoC;IoC数据库存储IoC提取模块提取到的IoC。进一步地,IoC提取模块包括正则表达式匹配模块、IoC有效性判断模块。进一步地,正则表达式匹配模块通过正则表达式匹配有效IoC。进一步地,正则表达式匹配模块包括两类正则表达式,分别匹配规则严整的IoC和结构化特征不明显的语句中的IoC。进一步地,IoC有效性判断模块对IoC进行有效性分类,识别出有效IoC。本专利技术针对非结构化的文本利用正则匹配和双向长短期记忆网络的组合算法,结合注意力机制和上下文内容特征,提升对上下文的特征提取能力,提升对含义不确定的IoC数据的判别效果,在数据集上的分类效果能达到92%的正确率。以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。附图说明图1是本专利技术的一个较佳实施例的组成示意图;图2是本专利技术的一个较佳实施例的基于深度学习的IoC抽取模型框架示意图;图3是本专利技术的一个较佳实施例的IoC有效性判定模块工作流程示意图。具体实施方式以下参考说明书附图介绍本专利技术的多个优选实施例,使其
技术实现思路
更加清楚和便于理解。本专利技术可以通过许多不同形式的实施例来得以体现,本专利技术的保护范围并非仅限于文中提到的实施例。在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本专利技术并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。如图1所示,本专利技术的一个较佳实施例,由文本自动获取模块、非结构化文本预处理模块、IoC提取模块、IoC数据库和IoCTerm匹配库组成。本专利技术的功能是在获取相关威胁情报的基础上,从非结构化的文本中抽取IoC,形成IoC数据库,并通过网页界面进行输出。1)文本自动获取模块:收集网络安全厂商和网络安全网站提供的威胁报告链接,运用Python的request-html库爬取与IoC相关的文本信息;2)非结构化文本预处理模块:使用Python库编程,实现对位于上下文环境中、无结构化特征的IoC相关文本的清洗;3)IoCTerm匹配库:利用现有的IoCEditor开源软件,对IoC中出现频率较高的特征词进行收集和管理,同时对目前收集到的包含有效IoC的语句进行了分析,提取了出现了频率较高的IoC短语(term)放入匹配库中作为特征;4)IoC提取模块:针对非结构化的文本利用正则匹配和双向LSTM的组合算法,包括正则表达式匹配模块和IoC有效性判断模块两个子模块。前者在正则本文档来自技高网
...

【技术保护点】
1.一种IoC自动抽取与挖掘方法,其特征在于,包括词嵌入层、序列表示层、全连接层;/n所述词嵌入层将输入词语转换为词向量;/n所述序列表示层为双向LSTM结构;/n所述全连接层对所述词嵌入层和所述序列表示层的输出进行综合,输出表示是否为有效IoC。/n

【技术特征摘要】
1.一种IoC自动抽取与挖掘方法,其特征在于,包括词嵌入层、序列表示层、全连接层;
所述词嵌入层将输入词语转换为词向量;
所述序列表示层为双向LSTM结构;
所述全连接层对所述词嵌入层和所述序列表示层的输出进行综合,输出表示是否为有效IoC。


2.如权利要求1所述的IoC自动抽取与挖掘方法,其特征在于,所述词嵌入层采用Word2Vec中的Skip-Gram算法进行训练。


3.如权利要求1所述的IoC自动抽取与挖掘方法,其特征在于,所述序列表示层还包括注意力机制。


4.如权利要求3所述的IoC自动抽取与挖掘方法,其特征在于,所述序列表示层还包括上下文特征。


5.如权利要求4所述的IoC自动抽取与挖掘方法,其特征在于,所述序列表示层在每个句子输入之前,对所述双向LSTM结构中的隐藏层的权值置零。


6.一种采用如权利要求1-5任一项所述方法的IoC自动抽取与挖掘系统,其特征在于,包括文本自动获取模块、非结构化文本预处...

【专利技术属性】
技术研发人员:邹福泰
申请(专利权)人:天桐苏州网络科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1