System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 高级持续威胁信息分析方法、装置、计算机设备制造方法及图纸_技高网

高级持续威胁信息分析方法、装置、计算机设备制造方法及图纸

技术编号:40239695 阅读:5 留言:0更新日期:2024-02-02 22:38
本发明专利技术属于网络安全技术领域,涉及高级持续威胁信息分析方法、装置、计算机设备及存储介质,其中,所述方法构建基于网页文本识别的网络威胁情报文本提取器,获取原始高级持续威胁信息;对所述原始高级持续威胁信息进行预处理,得到经过预处理后的高级持续威胁信息;基于所述预处理后的高级持续威胁信息之间的关系,提取威胁实体。将BIGRU双向门控单元获取输入文本序列的全局语义特征,提出了结合注意力机制的全局语义特征BERT‑BiGRU‑Att‑CRF模型,能够完成异构威胁情报的实体提取。

【技术实现步骤摘要】

本专利技术涉及网络安全,尤其涉及一种高级持续威胁信息分析方法、装置、计算机设备及存储介质。


技术介绍

1、随着高级持续威胁(advanced persistent threat,apt)的发展和网络安全形势的日益严峻,开源网络威胁情报(oscti)在获取当前网络安全信息方面的影响力越来越大。大多数关于网络威胁情报(cti)的分析都侧重于从描述攻击事件的公共资源中自动提取威胁实体。网络安全知识图谱旨在改变威胁知识的表达方式,使安全研究人员能够准确、高效地获取各类威胁信息,用于初步的智能决策。威胁情报中最重要的指征数据就是妥协指标(indicators of compromise,ioc),简单来说攻击事件发生后,被捕捉到的攻击特征信息。威胁情报的有效性取决于情报数据的广度和深度,主流的服务商会及时更新和同步最新威胁分析过程,并提供相关的妥协指标数据,这些数据分散在不同的公众号、网页、博客、微博等平台上。

2、结构化威胁信息表达(stix)和常见攻击模式枚举和分类(capec)等框架极大地促进了安全研究人员共享网络威胁情报,同时解决了处理网络威胁情报数据的繁琐和混乱的过程。然而,由于威胁信息不断增加,妥协指标的标签信息很难更新,同时由于数据的多源异构化,导致网络威胁情报分析变得困难。现如何从这些多源复杂的结构化和非结构化网络威胁情报妥协指标中抽取出相关实体及其关系,存在以下缺陷:

3、妥协指标无法代表攻击者与受害者进行系统交互。妥协指标只能关注攻击过程的局部分析,无法构建完整的攻击链,更无法挖掘出攻击背后的组织者和执行者,从而导致对攻击行为的检测不准确。妥协指标项相关性低、独立性高,无法为溯源提供有力支撑。


技术实现思路

1、本专利技术实施例的目的在于提出一种高级持续威胁信息分析方法、装置、计算机设备及存储介质,以解决现有技术中高级持续威胁分析中,妥协指标项相关性低、独立性高,无法为网络威胁溯源提供有力支撑的问题。

2、为了解决上述技术问题,本专利技术提供一种高级持续威胁信息分析方法,采用了如下所述的技术方案,包括:

3、构建基于网页文本识别的网络威胁情报文本提取器,获取原始高级持续威胁信息;

4、对所述原始高级持续威胁信息进行预处理,得到经过预处理后的高级持续威胁信息;

5、基于所述预处理后的高级持续威胁信息之间的关系,提取威胁实体。

6、优选地,

7、所述构建基于网页文本识别的网络威胁情报文本提取器,获取原始高级持续威胁信息的步骤具体包括:

8、使用python自动化测试框架pyppeteer,将html网页内容转换为pdf文件;

9、使用pdf miner识别pdf文件中的文本,得到原始高级持续威胁信息。

10、优选地,

11、所述对所述原始高级持续威胁信息进行预处理,得到经过预处理后的高级持续威胁信息的步骤具体包括:

12、对所述原始高级持续威胁信息进行去噪;

13、对去噪后的所述原始高级持续威胁信息进行句子分割,得到多个子句;

14、对多个所述子句进行文本分词;

15、设置黑名单和白名单规则;

16、结合所述黑名单和白名单规则,通过ioc和ttp的提取规范,获取最新的ioc信息。

17、优选地,所述基于所述预处理后的高级持续威胁信息之间的关系,提取威胁实体的步骤具体包括:

18、基于所述预处理后的高级持续威胁信息之间的关系,获得输入文本序列;

19、嵌入层采用bert预训练模型,获得输入文本序列的字符级动态向量;

20、利用bigru双向门控单元,获取输入文本序列的全局语义特征;

21、引入注意力机制att,处理bigru提取文本特征中的长距离依赖问题,得到最优输出标签。

22、优选地,所述对所述原始高级持续威胁信息进行去噪的步骤具体包括:

23、采用文本匹配的方式,去除所述原始高级持续威胁信息中的希腊字母、语言符号。优选地,所述对去噪后的所述原始高级持续威胁信息进行句子分割,得到多个子句的步骤具体包括:

24、基于python中的split函数,对去噪后的所述原始高级持续威胁信息进行句子分割,得到多个子句。

25、为了解决上述技术问题,本专利技术还提供一种高级持续威胁信息分析装置,采用了如下所述的技术方案,包括:

26、获取模块,用于构建基于网页文本识别的网络威胁情报文本提取器,获取原始高级持续威胁信息;

27、预处理模块,用于对所述原始高级持续威胁信息进行预处理,得到经过预处理后的高级持续威胁信息;

28、实体提取模块,基于所述预处理后的高级持续威胁信息之间的关系,提取威胁实体。

29、优选地,所述实体提取模块包括:

30、文本序列获取模块,用于基于所述预处理后的高级持续威胁信息之间的关系,获得输入文本序列;

31、bert预训练模型,用于嵌入层采用bert预训练模型,获得输入文本序列的字符级动态向量;

32、bigru双向门控单元,用于利用bigru双向门控单元,获取输入文本序列的全局语义特征;

33、注意力机制模块,用于引入注意力机制att,处理bigru提取文本特征中的长距离依赖问题,得到最优输出标签。

34、为了解决上述技术问题,本专利技术还提供一种计算机设备,采用了如下所述的技术方案,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的高级持续威胁信息分析方法的步骤。

35、为了解决上述技术问题,本专利技术还提供一种计算机可读存储介质,采用了如下所述的技术方案,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述的高级持续威胁信息分析方法的步骤。

36、与现有技术相比,本专利技术主要有以下有益效果:

37、(1)与传统的爬虫方法相比,通过一种基于网页文本识别技术的cti文本提取器,提高了整体的通用性以及绕过反爬虫策略的能力,获取不同来源的apt报告文本;

38、(2)通过对数据进行预处理,去除文本噪声,可以提高学习效果和质量;

39、(3)设计了基于transformer双向编码器表示(bert)的模型,将bigru双向门控单元获取输入文本序列的全局语义特征,同时引入注意力机制,解决特征提取中的长距离依赖问题;综合上述特征,提出了一种结合注意力机制bert-bigru-att-crf的网络威胁情报命名实体识别模型,能够效地提取cti文本中的威胁实体。

本文档来自技高网...

【技术保护点】

1.一种高级持续威胁信息分析方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的高级持续威胁信息分析方法,其特征在于,所述构建基于网页文本识别的网络威胁情报文本提取器,获取原始高级持续威胁信息的步骤具体包括:

3.根据权利要求1所述的高级持续威胁信息分析方法,其特征在于,所述对所述原始高级持续威胁信息进行预处理,得到经过预处理后的高级持续威胁信息的步骤具体包括:

4.根据权利要求1所述的高级持续威胁信息分析方法,其特征在于,所述基于所述预处理后的高级持续威胁信息之间的关系,提取威胁实体的步骤具体包括:

5.根据权利要求3所述的高级持续威胁信息分析方法,其特征在于,所述对所述原始高级持续威胁信息进行去噪的步骤具体包括:

6.根据权利要求1所述的高级持续威胁信息分析方法,其特征在于,所述对去噪后的所述原始高级持续威胁信息进行句子分割,得到多个子句的步骤具体包括:

7.一种高级持续威胁信息分析装置,其特征在于,包括:

8.根据权利要求7所述的高级持续威胁信息分析装置,其特征在于,所述实体提取模块包括:

9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的高级持续威胁信息分析方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的高级持续威胁信息分析方法的步骤。

...

【技术特征摘要】

1.一种高级持续威胁信息分析方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的高级持续威胁信息分析方法,其特征在于,所述构建基于网页文本识别的网络威胁情报文本提取器,获取原始高级持续威胁信息的步骤具体包括:

3.根据权利要求1所述的高级持续威胁信息分析方法,其特征在于,所述对所述原始高级持续威胁信息进行预处理,得到经过预处理后的高级持续威胁信息的步骤具体包括:

4.根据权利要求1所述的高级持续威胁信息分析方法,其特征在于,所述基于所述预处理后的高级持续威胁信息之间的关系,提取威胁实体的步骤具体包括:

5.根据权利要求3所述的高级持续威胁信息分析方法,其特征在于,所述对所述原始高级持续威胁信息进行去噪的步骤具体包括:

6...

【专利技术属性】
技术研发人员:廖丽平赵弘杨蔡君
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1