威胁情报的主题检测方法、装置和计算机存储介质制造方法及图纸

技术编号:25396767 阅读:24 留言:0更新日期:2020-08-25 23:01
本申请涉及一种威胁情报的主题检测方法、装置和计算机存储介质,其中,该威胁情报的主题检测方法包括:从预设数据源中爬取待检测的威胁情报文本;从待检测的威胁情报文本中抽取候选词集合,并从候选词集合中提取多种关键特征;融合多种关键特征,得到待检测的威胁情报文本的文本特征;采用层次聚类算法,根据待检测的威胁情报文本的文本特征将待检测的威胁情报文本聚类到已有主题或者新增主题,通过本申请,解决了相关技术中对威胁主题不能及时发现的问题,实现了从海量文档数据中高效精准的发现和提取威胁主题。

【技术实现步骤摘要】
威胁情报的主题检测方法、装置和计算机存储介质
本申请涉及信息安全
,特别是涉及威胁情报的主题检测方法、装置和计算机存储介质。
技术介绍
随着目的性强、手段复杂的网络攻击逐渐增多,早期的单点检测防御技术难以有效分析网络攻击的协同性和攻击所处阶段。随着威胁环境的不断变化,以及攻击者手段更加先进,安全人员需要更有效地预防、检测和相应威胁。合理利用威胁情报(CyberThreatIntelligence,CTI)可以在一定程度上减缓网络威胁,威胁情报作为新一代网络防御体系,能够及时感知层出不穷的安全事件及各种APTs的攻击,为各种攻击提供预防及防御措施。新一代网络防御体系中,常常对开源信息进行处理,但开源信息中,由于存在互联网漏洞、恶意病毒、黑客攻击工具等具有威胁性的开源信息,这些开源威胁信息可以被任何人通过互联网获取后加以利用和扩散,对互联网开源信息安全影响巨大。同时,在现有的网络防御体系中,存在对大规模文本数据向量化的处理效率低,对高纬度向量的语义挖掘效果较差,不能及时发现互联网开源威胁的不足。目前针对相关技术中处理海量文档数据效率低,挖掘高纬度数据特征不精准,对威胁主题不能及时发现,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种威胁情报的主题检测方法、装置和计算机存储介质,以至少解决相关技术中对威胁主题不能及时发现的问题。第一方面,本申请实施例提供了一种威胁情报的主题检测方法,包括:从预设数据源中爬取待检测的威胁情报文本;从待检测的威胁情报文本中抽取候选词集合,并从所述候选词集合中提取多种关键特征,其中,所述关键特征包括:关键词特征、主题词特征、实体特征;融合所述多种关键特征,得到所述待检测的威胁情报文本的文本特征;采用层次聚类算法,根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题。在其中一些实施例中,从所述待检测的威胁情报文本中抽取候选词集合包括:对所述待检测的威胁情报文本进行预处理,得到所述候选词集合;其中,所述预处理包括以下至少之一:去重、停用词删除、标点符号去除、大小写转换、词性标注及去除、词形还原。在其中一些实施例中,从所述候选词集合中提取所述关键词特征包括:从所述候选词集合中提取关键词,确定所述关键词的词频和逆文档频率,根据所述词频和所述逆文档频率确定所述关键词的权重值,并根据所述关键词的权重值确定所述关键词特征。在其中一些实施例中,从所述候选词集合中提取所述主题词特征包括:从所述候选词集合中提取候选主题词,计算所述候选主题词与预设标签类别词的相似度,根据所述相似度确定所述候选主题词的权重值,并根据所述候选主题词的权重值确定所述主题词特征。在其中一些实施例中,从所述候选词集合中提取所述实体特征包括:从所述候选词集合中识别实体候选词,从所述实体候选词中删除预设词性的实体候选词,得到所述实体特征。在其中一些实施例中,采用层次聚类算法,根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题包括:判断所述待检测的威胁情报文本的文本特征与已有主题簇中当前层级的已有主题的文本特征的相似度是否高于与所述当前层级的已有主题对应的预设阈值;在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度高于所述预设阈值的情况下,将所述待检测的威胁情报文本分类到所述当前层级的下一层级的主题。在其中一些实施例中,所述方法还包括:在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度不高于所述预设阈值的情况下,在所述当前层级下增加新增主题,并将所述待检测的威胁情报文本分类到所述新增主题。在其中一些实施例中,所述方法还包括:从聚类到相同已有主题的多个威胁情报文本中选取基准威胁情报文本,分别计算所述多个威胁情报文本中每个威胁情报文本与所述基准威胁情报文本的相似度,并将得到的相似度的平均值作为与所述相同已有主题对应的预设阈值。第二方面,本申请实施例提供了一种威胁情报的主题检测装置,包括:获取模块,用于从预设数据源中爬取待检测的威胁情报文本;提取模块,用于从待检测的威胁情报文本中抽取候选词集合,并从所述候选词集合中提取多种关键特征,其中,所述关键特征包括:关键词特征、主题词特征、实体特征;融合模块,用于融合所述多种关键特征,得到所述待检测的威胁情报文本的文本特征;处理模块,用于采用层次聚类算法,根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题。在其中一些实施例中,所述获取模块包括:预处理单元,用于对所述待检测的威胁情报文本进行预处理,得到所述候选词集合;其中,所述预处理包括以下至少之一:去重、停用词删除、标点符号去除、大小写转换、词性标注及去除、词形还原。在其中一些实施例中,所述提取模块包括:第一提取单元,用于从所述候选词集合中提取关键词,确定所述关键词的词频和逆文档频率,根据所述词频和所述逆文档频率确定所述关键词的权重值,并根据所述关键词的权重值确定所述关键词特征。在其中一些实施例中,所述提取模块还包括:第二提取单元,用于从所述候选词集合中提取候选主题词,计算所述候选主题词与预设标签类别词的相似度,根据所述相似度确定所述候选主题词的权重值,并根据所述候选主题词的权重值确定所述主题词特征。在其中一些实施例中,所述提取模块还包括:第三提取单元,用于从所述候选词集合中识别实体候选词,从所述实体候选词中删除预设词性的实体候选词,得到所述实体特征。在其中一些实施例中,所述处理模块包括:第一判断单元,用于判断所述待检测的威胁情报文本的文本特征与已有主题簇中当前层级的已有主题的文本特征的相似度是否高于与所述当前层级的已有主题对应的预设阈值;第一分类单元,用于在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度高于所述预设阈值的情况下,将所述待检测的威胁情报文本分类到所述当前层级的下一层级的主题。在其中一些实施例中,所述装置还包括:第一处理模块,用于在所述待检测的威胁情报文本的文本特征与所述当前层级的已有主题的文本特征的相似度不高于所述预设阈值的情况下,在所述当前层级下增加新增主题,并将所述待检测的威胁情报文本分类到所述新增主题。在其中一些实施例中,所述装置还包括:第二处理模块,用于从聚类到相同已有主题的多个威胁情报文本中选取基准威胁情报文本,分别计算所述多个威胁情报文本中每个威胁情报文本与所述基准威胁情报文本的相似度,并将得到的相似度的平均值作为与所述相同已有主题对应的预设阈值。第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第第一方面所述的威胁情报的主题检测方法。<本文档来自技高网...

【技术保护点】
1.一种威胁情报的主题检测方法,其特征在于,包括:/n从预设数据源中爬取待检测的威胁情报文本;/n从待检测的威胁情报文本中抽取候选词集合,并从所述候选词集合中提取多种关键特征,其中,所述关键特征包括:关键词特征、主题词特征、实体特征;/n融合所述多种关键特征,得到所述待检测的威胁情报文本的文本特征;/n采用层次聚类算法,根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题。/n

【技术特征摘要】
1.一种威胁情报的主题检测方法,其特征在于,包括:
从预设数据源中爬取待检测的威胁情报文本;
从待检测的威胁情报文本中抽取候选词集合,并从所述候选词集合中提取多种关键特征,其中,所述关键特征包括:关键词特征、主题词特征、实体特征;
融合所述多种关键特征,得到所述待检测的威胁情报文本的文本特征;
采用层次聚类算法,根据所述待检测的威胁情报文本的文本特征将所述待检测的威胁情报文本聚类到已有主题或者新增主题。


2.根据权利要求1所述的威胁情报的主题检测方法,其特征在于,从所述待检测的威胁情报文本中抽取候选词集合包括:
对所述待检测的威胁情报文本进行预处理,得到所述候选词集合;其中,所述预处理包括以下至少之一:去重、停用词删除、标点符号去除、大小写转换、词性标注及去除、词形还原。


3.根据权利要求1所述的威胁情报的主题检测方法,其特征在于,从所述候选词集合中提取所述关键词特征包括:
从所述候选词集合中提取关键词,确定所述关键词的词频和逆文档频率,根据所述词频和所述逆文档频率确定所述关键词的权重值,并根据所述关键词的权重值确定所述关键词特征。


4.根据权利要求1所述的威胁情报的主题检测方法,其特征在于,从所述候选词集合中提取所述主题词特征包括:
从所述候选词集合中提取候选主题词,计算所述候选主题词与预设标签类别词的相似度,根据所述相似度确定所述候选主题词的权重值,并根据所述候选主题词的权重值确定所述主题词特征。


5.根据权利要求1所述的威胁情报的主题检测方法,其特征在于,从所述候选词集合中提取所述实体特征包括:
从所述候选词集合中识别实体候选词,从所述实体候选词中删除预设词性的实体候选词,得到所述实体特征。


6.根据权利要求1所述的威胁情报的主题检测方法,其特征在于,采用层次聚类算法,根据所述待检测的...

【专利技术属性】
技术研发人员:范如范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1