【技术实现步骤摘要】
基于深度神经网络的网络安全关键词抽取方法
本专利技术属于信息
,具体涉及一种基于深度神经网络的网络安全关键词抽取方法。
技术介绍
随着经济技术的发展和人们生活水平的提高,信息安全已经成为了人们生产和生活中越来越关注的问题。然而,近年来,我国的互联网技术发展十分迅猛,人们对网络信息时代的依赖性增强,各种各样的网络攻击也不断增多,这些网络攻击已经严重影响到了我们的日常生活。网络安全热点事件挖掘已经成为了当前网络安全行业的关注重点,多个发达国家已经成立了专门的网络安全组织对网络安全热点事件挖掘与舆情监控。网络安全关键词抽取从网络安全文本集合中抽取能够概括网络安全事件信息以及重要性的词语或者是短语,是网络安全热点事件挖掘与深度分析的重要基础部分。关键词抽取主要包含三个步骤:文本分词、去停用词、关键词评分。目前的中文文本分词主要利用文本分词工具来实现,主流的有结巴分词、snowNLP分词等,该分词工具的原理是利用分词系统中的分词词库以及字符匹配的方法来对文本自动化分词。由于网络安全领域的特异性、多元性导致大部分网络安全词汇没有出现在分词工具的词库中。去停用词即去除文本中对文本主旨没有意义的词语,这些词往往是介词、连词、副词等没有实际意义的词。关键词评分通常根据词语在文本中的特征作为评价指标,词语的特征评价有以下几类:基于词语权重统计的、基于词语主题信息分布的、基于词语之前语法关系的特征评价。目前的关键词抽取技术在网络安全文本中主要存在这些不足:当前分词系统对与网络安全领域词汇分词效果不高,需要对分 ...
【技术保护点】
1.一种基于深度神经网络的网络安全关键词抽取方法,包括如下步骤:/nS1.采集网络安全文本数据集;/nS2.构建深度神经网络;/nS3.采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,得到训练后的深度神经网络模型;/nS4.采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展;/nS5.根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果。/n
【技术特征摘要】
1.一种基于深度神经网络的网络安全关键词抽取方法,包括如下步骤:
S1.采集网络安全文本数据集;
S2.构建深度神经网络;
S3.采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,得到训练后的深度神经网络模型;
S4.采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展;
S5.根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果。
2.根据权利要求1所述的基于深度神经网络的网络安全关键词抽取方法,其特征在于步骤S1所述的采集网络安全文本数据集,具体为采用爬虫技术采集网络安全文本数据集。
3.根据权利要求2所述的基于深度神经网络的网络安全关键词抽取方法,其特征在于所述的采用爬虫技术采集网络安全文本数据集,具体为采用如下步骤获取网络安全文本数据集:
A.对安全文本数据集进行定义;
B.采用爬虫技术采集网络安全文本数据集;
C.对步骤B采集的网络安全文本数据集进行数据清理,从而得到最终的清理后的网络安全文本数据集。
4.根据权利要求3所述的基于深度神经网络的网络安全关键词抽取方法,其特征在于步骤S2所述的构建深度神经网络,具体为采用如下步骤构建深度神经网络:
a.采用此词向量训练模型,将步骤S1获取的网络安全文本数据集转换为词向量序列;
b.采用BiLSTM神经网络结构,对步骤a得到的词向量序列进行处理,从而得到每个字符在神经网络中各个标签类别的概率;
c.对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别。
5.根据权利要求4所述的基于深度神经网络的网络安全关键词抽取方法,其特征在于步骤c所述的对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别,具体为采用条件随机场作为标签分类层,对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别。
6.根据权利要求5所述的基于深度神经网络的网络安全关键词抽取方法,其特征在于步骤S3所述的采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,具体为采用如下步骤进行训练:
(1)对网络安全实体的...
【专利技术属性】
技术研发人员:宋虹,陈济民,林丹丹,王伟平,
申请(专利权)人:中南大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。