基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质技术方案

技术编号：38891912 阅读：11 留言：0更新日期：2023-09-22 14:16

本发明专利技术公开了基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质，涉及网络安全领域。该方法包括将来自多个信息源的文本信息进行聚合；从聚合后的文本中提取失陷指标实体信息；将聚合后的文本转换为令牌向量表示，将令牌向量表示输入实体识别模型和攻击模式识别模型得到实体类别信息和攻击模式识别信息；将实体类别信息输入知识库中，通过规则匹配算法搜索文本中与知识库中的实体相匹配的信息，确定实体在文本中的位置信息；将攻击模式识别信息与预定义标准建立映射，确定攻击模式符合的标准；将上述信息组合为威胁情报信息并输出。本发明专利技术实现了自动化的威胁情报提取和分析，提高了情报分析效率。提高了情报分析效率。提高了情报分析效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质

[0001]本专利技术涉及网络安全领域，尤其涉及基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质。

技术介绍

[0002]随着信息技术的不断发展，网络空间中的威胁与风险日益增加。企业和组织必须对威胁情报进行有效的获取和分析，才能够及时识别已发生的入侵，并对未来威胁态势进行有效预判，对企业关键基础设施和数据资产的安全防护具有重要的意义。
[0003]然而，威胁情报往往存在数据量众多、来源多样和结构复杂的特点。特别是在大数据场景下，威胁情报的获取和分析是一项艰巨而复杂的任务。现有的威胁情报提取分析普遍存在系统使用复杂、数据处理自动化程度不高、情报分析准确性较低等问题，严重影响着威胁情报获取和分析的效率。

技术实现思路

[0004]为了解决现有技术中的威胁情报信息提取方法存在的问题，本专利技术提供了如下技术方案。
[0005]本专利技术在第一方面提供了一种基于自然语言处理的威胁情报自动提取方法，包括：将来自多个信息源的文本信息进行聚合；基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息；利用令牌表示模型将聚合后的文本信息转换为令牌向量表示，将所述令牌向量表示输入实体识别模型得到实体提取结果，所述实体提取结果包括实体类别信息；将所述实体类别信息输入知识库中，通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的知识库匹配结果，所述知识库匹配结果包括实体在文本中的位置信息，根据实体提取结果和知识库匹配结果...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的威胁情报自动提取方法，其特征在于，包括：将来自多个信息源的文本信息进行聚合；基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息；利用令牌表示模型将聚合后的文本信息转换为令牌向量表示，将所述令牌向量表示输入实体识别模型得到实体提取结果，所述实体提取结果包括实体类别信息；将所述实体类别信息输入知识库中，通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的知识库匹配结果，所述知识库匹配结果包括实体在文本中的位置信息，根据实体提取结果和知识库匹配结果得到安全实体信息；将所述令牌向量表示输入攻击模式识别模型，得到攻击模式识别信息；将所述攻击模式识别信息与预定义标准建立映射，以确定攻击模式符合的标准；将所述失陷指标实体信息、所述安全实体信息以及所述攻击模式及其符合的标准组合为威胁情报信息；输出所述威胁情报信息。2.根据权利要求1所述的基于自然语言处理的威胁情报自动提取方法，其特征在于，所述多个信息源包括社交媒体、新闻、网页和文本文档。3.根据权利要求2所述的基于自然语言处理的威胁情报自动提取方法，其特征在于，在将来自多个信息源的文本信息进行聚合之后，进一步包括：通过预处理过程将聚合后的文本信息进行格式转换。4.根据权利要求1所述的基于自然语言处理的威胁情报自动提取方法，其特征在于，所述失陷指标实体信息中的失陷指标类型包括位置、漏洞、身份、网络地址、电子邮件、域名、链接和散列信息，所述提取失陷指标实体信息，进一步包括：为每一种类型的失陷指标编写相应的正则规则，通过该正则规则来提取相应类型的失陷指标实体信息。5.根据权利要求1所述的基于自然语言处理的威胁情报自动提取方法，其特征在于，所述将聚合后的文本信息转换为令牌向量表示，进一步包括：将输入序列通过字节对编码处理，得到字节对编码令牌序列；将所述字节对编码令牌序列输入XLM
‑
RoBERTa语言模型中，得到每个令牌的隐状态；然后将所述隐状态输入双向长短期记忆网络BiLSTM中，得到每个令牌在序列中的双向向量表示，所述双向向量表示包括一个前向序列的令牌向量和一个反向序列的令牌向量；将所述前向序列的令牌向量、所述令牌的隐状态以及反向序列的令牌向量进行依次拼接，输出令牌向量表示。6.根据权利要求5所述的基于自然语言处理的威胁情报自动提取方法，其特征在于，所述实体类别信息包括工具、恶意软件和威胁行为体，并且所述将所述令牌向量表示输入实体识别模型得到实体提取结果，进一步包括：利用所述令牌表示模型进行令牌向量化处理，得到所述令牌向量表示；将所述令牌向量表示输入跨度表示模型，为每个令牌添加开始和结束的位置信息，得到跨度令牌表示；将所述跨度令牌表示输入线性层，计算该令牌属于每个类别的概率；通过Softmax层将所述线性层的输出进行归一化，以确定所述实体类别信息。
7.根据权利要求5所述的基于自然语言处理的威胁情报自动提取...

【专利技术属性】
技术研发人员：李锟，杨大路，刘志宏，翟湛鹏，
申请(专利权)人：天际友盟珠海科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人