【技术实现步骤摘要】
一种基于特征抽取的网络安全博客分类方法及系统
本专利技术属于博客分类领域,具体涉及一种基于特征抽取的网络安全博客分类方法及系统。
技术介绍
近年来,网络威胁的攻击范围不断扩大,攻击频率也越来越高。许多公司因为网络攻击遭受了巨大损失,如何应对复杂多变的网络威胁成为了各个公司关注的焦点。许多网络安全专家在对网络威胁进行分析后,将获得的网络威胁情报发布在博客中。这类博客中包含了大量的网络威胁指标(IndicatorofCompromise,简称IOC),如恶意网址,木马病毒名等。这些IOC代表了网络威胁的行为特征,对于检测和防御网络攻击具有重要作用。但是网络安全博客网站上还存在很多博客与新闻和安全产品推销相关,从所有博客中筛选出和IOC相关的博客能提前为对IOC博客有需求的公司或个人过滤无关内容,提升效率。从所有网络安全博客中筛选与IOC相关的博客对于网络安全具有重要意义。现有的文本分类方法大多采用深度学习技术,结合文章的标题进行分类。这种方法依赖于标题对文章主题的反映程度,大多用于将文本在话题上进行分类。而在我们对网络安全博客的分类中,我们最终的类别是博客与IOC相关 ...
【技术保护点】
1.一种基于特征抽取的网络安全博客分类方法,其特征在于:包括如下步骤:步骤1:利用网络爬虫技术,从网络安全博客网站爬取博客;步骤2:对爬取的博客进行分词并利用预存的英文字典判断各个单词是否为字典词,再计算每个博客的非字典词密度;步骤3:分别计算每个博客的单词与预存的恶意词库的单词的平均相似度得到每个博客的博客恶意倾向度;其中,将所述平均相似度作为对应博客的博客恶意倾向度;步骤4:统计爬取的所有博客中各个单词出现的频次,并选取频次最高的N个单词作为高频词;其中,N为正整数;步骤5:计算各个高频词在每个博客中的词频‑逆文档频率;博客中各个高频词的词频‑逆文档频率与所述高频词在每 ...
【技术特征摘要】
1.一种基于特征抽取的网络安全博客分类方法,其特征在于:包括如下步骤:步骤1:利用网络爬虫技术,从网络安全博客网站爬取博客;步骤2:对爬取的博客进行分词并利用预存的英文字典判断各个单词是否为字典词,再计算每个博客的非字典词密度;步骤3:分别计算每个博客的单词与预存的恶意词库的单词的平均相似度得到每个博客的博客恶意倾向度;其中,将所述平均相似度作为对应博客的博客恶意倾向度;步骤4:统计爬取的所有博客中各个单词出现的频次,并选取频次最高的N个单词作为高频词;其中,N为正整数;步骤5:计算各个高频词在每个博客中的词频-逆文档频率;博客中各个高频词的词频-逆文档频率与所述高频词在每个博客中是否存在以及在对应博客中出现的频率相关;步骤6:基于博客的非字典词密度、博客恶意倾向度以及每个博客中每个高频词的词频-逆文档频率构建输入向量,以及基于博客与网络威胁指标相关或不相关进行编码来构建输出向量,再利用构建的输入向量、输出向量训练预设分类模型得到博客分类器;步骤7:获取待分类博客的非字典词密度、博客恶意倾向度以及各个高频词的词频-逆文档频率并输入至训练后的博客分类器得到分类器输出值;所述分类器输出值表示待分类博客与网络威胁指标相关或不相关。2.根据权利要求1所述的方法,其特征在于:步骤2中每个博客的非字典词密度的计算公式如下:式中,densityj为第j个博客的非字典词密度,{wj}为第j个博客的单词集合,{W}为字典中英文单词的集合,|{wj}|为第j个博客的单词集合{wj}中单词的个数。3.根据权利要求1所述的方法,其特征在于:步骤3中每个博客的博客恶意倾向度的获取过程如下:首先,获取英文语料,并利用获取的英文语料训练出词向量模型;然后,利用所述词向量模型计算出所述博客、所述恶意词库中每个单词的词向量;再者,基于词向量计算所述博客中的每个单词与所述恶意词库中的每个单词的单词相似度;最后,计算所述博客中所有单词与所述恶意词库中所有单词的单词相似度的平均相似度。4.根据权利要求3所述的方法,其特征在于:博客中的单词与恶意词库中的单词的单词相似度的计算公式如下:W1=(w11,...,w1n),W2=(w21,...,w2n)式中,sim(a,b)为单词a和单词b的单词相似度,W1、W2分别为单词a和b对应的词向量,w11、w1n分别为词向量W1的第1维和第n维元素,w21、w2n分别为词向量W2的第1维和第n维元素。5.根据权利要求3所述的方法,其特征在于:每个博客恶意倾向度的计算公式如下:式中,malicj为第j个博客的博客恶意倾向度,sim(wj,k,mi)为单词wj,k与单...
【专利技术属性】
技术研发人员:王建新,宁翔凯,李冬,王伟平,鲁鸣鸣,
申请(专利权)人:中南大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。