System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种高质量威胁数据的挖掘方法、系统、电子设备和介质技术方案_技高网

一种高质量威胁数据的挖掘方法、系统、电子设备和介质技术方案

技术编号:40211235 阅读:6 留言:0更新日期:2024-02-02 22:20
本发明专利技术公开了一种高质量威胁数据的挖掘方法、系统、电子设备和介质,属于网络安全技术领域。本发明专利技术的一种高质量威胁数据的挖掘方法,通过构建数据采集模型、主题聚类筛选模型、实体识别模型、时新计算模型和威胁数据挖掘模型,通过基于主题的聚类方法从收集的帖子中筛选出有关网络安全的内容,进一步通过命名实体识别方法提取出文本中的威胁数据实体,最后通过明网信息量计算实体词的时新性,以此评估提取出的信息的重要性,最终得到高质量的网络安全相关的威胁数据,方案科学、合理,切实可行。本发明专利技术将搜集到的信息转化成可信威胁数据,有助于研究人员在攻击发生之前预测攻击者的意图和行为。

【技术实现步骤摘要】

本专利技术涉及一种高质量威胁数据的挖掘方法、系统、电子设备和介质,属于网络安全。


技术介绍

1、随着互联网的不断发展,越来越多人使用互联网,也带来了很多网络安全问题。一些不法分子会选择在网络上公开售卖一些有害网络安全的服务和商品。暗网采用特殊的加密技术和匿名通信协议,为用户提供了相对较高的匿名性。这种匿名性为网络犯罪分子提供了一定程度的掩护,使他们能够在暗网中进行违法活动,而不易被追踪和定位。暗网论坛作为网络犯罪分子的交流平台,其内容涉及大量违法犯罪行为,包括违禁品交易、黑客技术探讨、信用卡诈骗等等。除此之外,还有关于窃取的数据的发布,已知漏洞的讨论,恶意软件的传播等等,这些内容可能会表现出一些黑客攻击的倾向。

2、暗网中充斥着大量隐秘的信息,包含最新的恶意软件、新黑客攻击技术以及犯罪分子动向,因此这里也成为了安全研究人员寻找威胁情报的新阵地。

3、但是暗网中的威胁情报信息过于庞杂,以市场为例,有大量关于违禁品、信用卡诈骗的商品,这些信息对于网络安全威胁防御无关,在进行威胁情报筛查时,需要对其进行筛选,并且最终提取出高质量的威胁情报。

4、本
技术介绍
中公开的信息仅用于理解本专利技术构思的背景,因此它可以包括不构成现有技术的信息。


技术实现思路

1、针对上述问题或上述问题之一,本专利技术的目的一在于提供一种通过基于主题的聚类方法从收集的帖子中筛选出有关网络安全的内容,进一步通过命名实体识别方法提取出文本中的威胁数据实体,最后通过明网信息量计算实体词的时新性,以此评估提取出的信息的重要性,最终得到高质量的网络安全相关的威胁数据,方案科学、合理,切实可行的高质量威胁数据的挖掘方法、系统、电子设备和介质。

2、针对上述问题或上述问题之一,本专利技术的目的二在于提供一种通过监控暗网信息源,了解最新的威胁,并采取主动措施加强安全防护,搜集攻击者从策划攻击到实施攻击后的一系列行为,将搜集到的信息转化成可信威胁数据,有助于研究人员在攻击发生之前预测攻击者的意图和行为的高质量威胁数据的挖掘方法、系统、电子设备和介质。

3、为实现上述目的之一,本专利技术的第一种技术方案为:

4、一种高质量威胁数据的挖掘方法,包括以下内容:

5、利用预先构建的数据采集模型,对论坛内容或/和网站内容进行收集,得到发贴数据;

6、通过预先构建的主题聚类筛选模型,利用基于主题聚类的方法对发帖数据进行处理,筛选出威胁数据文本信息;

7、利用预先构建的实体识别模型,通过命名实体识别方法从威胁数据文本信息中提取威胁数据实体,得到实体词;

8、通过预先构建的时新计算模型,利用明网信息量计算公式计算实体词的时新性;

9、根据时新性,利用预先构建的威胁数据挖掘模型,得到高质量威胁数据。

10、本专利技术经过不断探索以及试验,通过构建数据采集模型、主题聚类筛选模型、实体识别模型、时新计算模型和威胁数据挖掘模型,通过基于主题的聚类方法从收集的帖子中筛选出有关网络安全的内容,进一步通过命名实体识别方法提取出文本中的威胁数据实体,最后通过明网信息量计算实体词的时新性,以此评估提取出的信息的重要性,最终得到高质量的网络安全相关的威胁数据,方案科学、合理,切实可行。

11、进一步,本专利技术通过监控这些暗网信息源,可以了解最新的威胁,将其与现有的网络安全基础设施相结合,并采取主动措施加强安全防护。关注暗网动态,搜集攻击者从策划攻击到实施攻击后的一系列行为,将搜集到的信息转化成可信威胁数据,有助于研究人员在攻击发生之前预测攻击者的意图和行为。

12、作为优选技术措施:

13、对论坛内容或/和网站内容进行收集的方法如下:

14、步骤1.1、搜集论坛或/和网站的域名,所述论坛或/和网站为暗网的论坛或/和网站;

15、步骤1.2、根据论坛或/和网站的结构特征,获取论坛中论坛内容或/和网站中网站内容的xml路径语言;

16、步骤1.3、获取用户信息文本文件cookie,对网站内容进行爬取,并使用xml路径语言解析html页面,将解析出来的数据按照论坛或/和网站的结构保存到数据库中,形成发贴数据。

17、作为优选技术措施:

18、利用基于主题聚类的方法筛选出威胁数据的文本信息的方法如下:

19、步骤2.1、对发帖数据进行文本预处理,使得主题帖及其回复帖衔接到一起,得到贴文数据;

20、步骤2.2、通过主题建模语义搜索算法top2vec将贴文数据的标题和贴文分别以词和文档的形式嵌入同一向量空间中,得到贴文向量;

21、步骤2.3、基于主题聚类的方法,对贴文向量进行处理,筛选出威胁数据文本。

22、作为优选技术措施:

23、筛选出威胁数据文本的方法如下:

24、首先定义威胁数据相关的核心关键词;

25、根据核心关键词,在预先训练得到的语义嵌入模型中寻找有关的语料关键词;

26、利用语料关键词获取与其语义相近的关键字文本;

27、使用关键字文本得到语义向量;

28、利用语义向量,对贴文向量进行筛选,得到威胁数据文本。

29、作为优选技术措施:

30、实体识别模型得到实体词的方法如下:

31、步骤3.1、基于通用语义表示模型bert建立字符分类器;

32、步骤3.2、利用标注好的威胁数据文本数据训练字符分类器;

33、步骤3.3、对威胁数据文本信息的文本内容进行分词,得到词符列表;

34、步骤3.4、将词符列表输入到训练好的字符分类器,得到每个词符的预测标签值;

35、步骤3.5、根据预测标签值提取出威胁数据实体,得到实体词。

36、作为优选技术措施:

37、利用明网信息量计算公式计算实体词的时新性的方法如下:

38、步骤4.1、将提取的实体词在明网搜索引擎上进行检索获得相应的搜索结果;

39、步骤4.2、结合“域加权”和“词频加权”两种计算算法,根据搜索结果计算实体词在明网中的信息量,以此评估威胁数据的时新性;

40、步骤4.3、根据信息量,得到实体词的时新性;

41、信息量的平均值大,说明实体词在明网中的信息量大,时新性低。

42、作为优选技术措施:

43、计算实体词在明网中的信息量的公式如下:

44、

45、其中α是标题域中出现实体词时的权值,β是正文内容域中出现实体词时的权值。xr是实体词在第r个结果标题域中出现的次数,yr是实体词在第r个结果正文内容中出现的次数。

46、为实现上述目的之一,本专利技术的第二种技术方案为:

47、一种高质量威胁数据的挖掘方法,包括以下步骤:

48、步骤1:利用预先构建的数据采集模型,对论坛内容或/本文档来自技高网...

【技术保护点】

1.一种高质量威胁数据的挖掘方法,其特征在于,

2.如权利要求1所述的一种高质量威胁数据的挖掘方法,其特征在于,

3.如权利要求1所述的一种高质量威胁数据的挖掘方法,其特征在于,

4.如权利要求3所述的一种高质量威胁数据的挖掘方法,其特征在于,

5.如权利要求1所述的一种高质量威胁数据的挖掘方法,其特征在于,

6.如权利要求1所述的一种高质量威胁数据的挖掘方法,其特征在于,

7.如权利要求6所述的一种高质量威胁数据的挖掘方法,其特征在于,

8.一种高质量威胁数据的挖掘方法,其特征在于,

9.一种高质量威胁数据的挖掘系统,其特征在于,

10.一种电子设备,其特征在于,

11.一种计算机可读存储介质,其特征在于,

【技术特征摘要】

1.一种高质量威胁数据的挖掘方法,其特征在于,

2.如权利要求1所述的一种高质量威胁数据的挖掘方法,其特征在于,

3.如权利要求1所述的一种高质量威胁数据的挖掘方法,其特征在于,

4.如权利要求3所述的一种高质量威胁数据的挖掘方法,其特征在于,

5.如权利要求1所述的一种高质量威胁数据的挖掘方法,其特征在于,

<...

【专利技术属性】
技术研发人员:汪溢镭孙歆韩嘉佳汪自翔邹福泰
申请(专利权)人:国网浙江省电力有限公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1