基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质技术方案

技术编号:38891912 阅读:11 留言:0更新日期:2023-09-22 14:16
本发明专利技术公开了基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质,涉及网络安全领域。该方法包括将来自多个信息源的文本信息进行聚合;从聚合后的文本中提取失陷指标实体信息;将聚合后的文本转换为令牌向量表示,将令牌向量表示输入实体识别模型和攻击模式识别模型得到实体类别信息和攻击模式识别信息;将实体类别信息输入知识库中,通过规则匹配算法搜索文本中与知识库中的实体相匹配的信息,确定实体在文本中的位置信息;将攻击模式识别信息与预定义标准建立映射,确定攻击模式符合的标准;将上述信息组合为威胁情报信息并输出。本发明专利技术实现了自动化的威胁情报提取和分析,提高了情报分析效率。提高了情报分析效率。提高了情报分析效率。

【技术实现步骤摘要】
基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质


[0001]本专利技术涉及网络安全领域,尤其涉及基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质。

技术介绍

[0002]随着信息技术的不断发展,网络空间中的威胁与风险日益增加。企业和组织必须对威胁情报进行有效的获取和分析,才能够及时识别已发生的入侵,并对未来威胁态势进行有效预判,对企业关键基础设施和数据资产的安全防护具有重要的意义。
[0003]然而,威胁情报往往存在数据量众多、来源多样和结构复杂的特点。特别是在大数据场景下,威胁情报的获取和分析是一项艰巨而复杂的任务。现有的威胁情报提取分析普遍存在系统使用复杂、数据处理自动化程度不高、情报分析准确性较低等问题,严重影响着威胁情报获取和分析的效率。

技术实现思路

[0004]为了解决现有技术中的威胁情报信息提取方法存在的问题,本专利技术提供了如下技术方案。
[0005]本专利技术在第一方面提供了一种基于自然语言处理的威胁情报自动提取方法,包括:将来自多个信息源的文本信息进行聚合;基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息;利用令牌表示模型将聚合后的文本信息转换为令牌向量表示,将所述令牌向量表示输入实体识别模型得到实体提取结果,所述实体提取结果包括实体类别信息;将所述实体类别信息输入知识库中,通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的知识库匹配结果,所述知识库匹配结果包括实体在文本中的位置信息,根据实体提取结果和知识库匹配结果得到安全实体信息;将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息;将所述攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准;将所述失陷指标实体信息、所述安全实体信息以及所述攻击模式及其符合的标准组合为威胁情报信息;输出所述威胁情报信息。
[0006]优选地,所述多个信息源包括社交媒体、新闻、网页和文本文档。
[0007]优选地,在将来自多个信息源的文本信息进行聚合之后,进一步包括:通过预处理过程将聚合后的文本信息进行格式转换。
[0008]优选地,所述失陷指标实体信息中的失陷指标类型包括位置、漏洞、身份、网络地址、电子邮件、域名、链接和散列信息,所述提取失陷指标实体信息,进一步包括:
为每一种类型的失陷指标编写相应的正则规则,通过该正则规则来提取相应类型的失陷指标实体信息。
[0009]优选地,所述将聚合后的文本信息转换为令牌向量表示,进一步包括:将输入序列通过字节对编码处理,得到字节对编码令牌序列;将所述字节对编码令牌序列输入XLM

RoBERTa语言模型中,得到每个令牌的隐状态;然后将所述隐状态输入双向长短期记忆网络BiLSTM中,得到每个令牌在序列中的双向向量表示,所述双向向量表示包括一个前向序列的令牌向量和一个反向序列的令牌向量;将所述前向序列的令牌向量、所述令牌的隐状态以及反向序列的令牌向量进行依次拼接,输出令牌向量表示。
[0010]优选地,所述实体类别信息包括工具、恶意软件和威胁行为体,并且所述将所述令牌向量表示输入实体识别模型得到实体提取结果,进一步包括:利用所述令牌表示模型进行令牌向量化处理,得到所述令牌向量表示;将所述令牌向量表示输入跨度表示模型,为每个令牌添加开始和结束的位置信息,得到跨度令牌表示;将所述跨度令牌表示输入线性层,计算该令牌属于每个类别的概率;通过Softmax层将所述线性层的输出进行归一化,以确定所述实体类别信息。
[0011]优选地,将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息,进一步包括:将所述令牌向量表示输入DropOut层,进行正则化操作;通过线性层进行攻击模式分类,得到攻击模式识别信息。
[0012]优选地,所述预定义标准为MITRE ATT&CK,并且所述将攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准,进一步包括:将所述攻击模式识别信息通过XLM

RoBERTa语言模型进行向量化,得到第一令牌向量;将所述MITRE ATT&CK中的每个标准的描述通过所述XLM

RoBERTa进行向量化,得到第二令牌向量;将第一令牌向量和第二令牌向量通过池化操作进行平均,分别得到第一平均令牌向量和第二平均令牌向量,并将两个平均令牌向量取差;将两个平均令牌向量的差值依次输入线性层和分类器,得到分类结果得分;将所有标准中得分最高的标准作为所述攻击模式识别信息所属的标准。
[0013]本专利技术在第二方面提供了一种基于自然语言处理的威胁情报自动提取系统,包括:信息聚合模块,用于将来自多个信息源的文本信息进行聚合;威胁情报信息提取模块,用于对所述聚合后的文本信息进行自然语言处理,并自动提取威胁情报信息,所述威胁情报信息提取模块进一步包括:失陷指标提取模块,用于基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息;
实体提取模块,用于利用令牌表示模型将聚合后的文本信息转换为令牌向量表示,将所述令牌向量表示输入实体识别模型得到实体提取结果,所述实体提取结果包括实体类别信息;攻击模式提取模块,用于将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息;知识库,用于根据所述实体类别信息,通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的知识库匹配结果,所述知识库匹配结果包括实体在文本中的位置信息,根据实体提取结果和知识库匹配结果得到安全实体信息;TTP映射模块,用于将所述攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准;合并模块,用于将所述失陷指标实体信息、所述安全实体信息以及所述攻击模式及其符合的标准组合为威胁情报信息,并输出所述威胁情报信息。
[0014]本专利技术另一方面提供了一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序代码,所述处理器用于读取所述计算机程序代码并执行前述第一方面的基于自然语言处理的威胁情报自动提取方法。
[0015]本专利技术又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序代码,所述计算机程序代码可被处理器加载和执行,以执行前述第一方面的基于自然语言处理的威胁情报自动提取方法。
[0016]本专利技术的有益效果是:本专利技术的威胁情报自动提取方法、系统、设备和存储介质,将STIX 2.1标准与自然语言处理技术相结合,从不同来源的信息中自动提取威胁情报,并通过自然语言处理技术来理解和分析威胁情报,实现了自动化的威胁情报提取和分析,提升了情报信息提取的自动化程度,显著提高了情报分析的效率。本专利技术的威胁情报自动提取系统具有高度的可扩展性和灵活性,可以适应不同类型和规模的企业和组织的需求。
附图说明
[0017]图1是本专利技术所述的基于自然语言处理的威胁情报自动提取方法的流程图。
[0018]图2是本专利技术所述的威胁情报自动提取系统的模块图。
[0019]图3是本专利技术所述的令本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的威胁情报自动提取方法,其特征在于,包括:将来自多个信息源的文本信息进行聚合;基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息;利用令牌表示模型将聚合后的文本信息转换为令牌向量表示,将所述令牌向量表示输入实体识别模型得到实体提取结果,所述实体提取结果包括实体类别信息;将所述实体类别信息输入知识库中,通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的知识库匹配结果,所述知识库匹配结果包括实体在文本中的位置信息,根据实体提取结果和知识库匹配结果得到安全实体信息;将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息;将所述攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准;将所述失陷指标实体信息、所述安全实体信息以及所述攻击模式及其符合的标准组合为威胁情报信息;输出所述威胁情报信息。2.根据权利要求1所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,所述多个信息源包括社交媒体、新闻、网页和文本文档。3.根据权利要求2所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,在将来自多个信息源的文本信息进行聚合之后,进一步包括:通过预处理过程将聚合后的文本信息进行格式转换。4.根据权利要求1所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,所述失陷指标实体信息中的失陷指标类型包括位置、漏洞、身份、网络地址、电子邮件、域名、链接和散列信息,所述提取失陷指标实体信息,进一步包括:为每一种类型的失陷指标编写相应的正则规则,通过该正则规则来提取相应类型的失陷指标实体信息。5.根据权利要求1所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,所述将聚合后的文本信息转换为令牌向量表示,进一步包括:将输入序列通过字节对编码处理,得到字节对编码令牌序列;将所述字节对编码令牌序列输入XLM

RoBERTa语言模型中,得到每个令牌的隐状态;然后将所述隐状态输入双向长短期记忆网络BiLSTM中,得到每个令牌在序列中的双向向量表示,所述双向向量表示包括一个前向序列的令牌向量和一个反向序列的令牌向量;将所述前向序列的令牌向量、所述令牌的隐状态以及反向序列的令牌向量进行依次拼接,输出令牌向量表示。6.根据权利要求5所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,所述实体类别信息包括工具、恶意软件和威胁行为体,并且所述将所述令牌向量表示输入实体识别模型得到实体提取结果,进一步包括:利用所述令牌表示模型进行令牌向量化处理,得到所述令牌向量表示;将所述令牌向量表示输入跨度表示模型,为每个令牌添加开始和结束的位置信息,得到跨度令牌表示;将所述跨度令牌表示输入线性层,计算该令牌属于每个类别的概率;通过Softmax层将所述线性层的输出进行归一化,以确定所述实体类别信息。
7.根据权利要求5所述的基于自然语言处理的威胁情报自动提取...

【专利技术属性】
技术研发人员:李锟杨大路刘志宏翟湛鹏
申请(专利权)人:天际友盟珠海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1