当前位置: 首页 > 专利查询>中南大学专利>正文

基于深度神经网络的网络安全关键词抽取方法技术

技术编号:24996868 阅读:55 留言:0更新日期:2020-07-24 17:59
本发明专利技术公开了一种基于深度神经网络的网络安全关键词抽取方法,包括采集网络安全文本数据集;构建深度神经网络并对网络安全文本数据集进行训练得到训练后的深度神经网络模型;采用训练后的深度神经网络模型对分词系统词库进行扩展;对分词之后的文本集合进行文本关键词的抽取并得到最终的网络安全关键词抽取结果。本发明专利技术提出了一种深度神经网络来改进文本分词的不足,并通过文本中每个词语的位置以及词性来提取文本的关键词集合;因此,本发明专利技术方法能够有效的提取网络安全文本中的关键词集合,具有较高的准确率,而且可靠性高,实用性好。

【技术实现步骤摘要】
基于深度神经网络的网络安全关键词抽取方法
本专利技术属于信息
,具体涉及一种基于深度神经网络的网络安全关键词抽取方法。
技术介绍
随着经济技术的发展和人们生活水平的提高,信息安全已经成为了人们生产和生活中越来越关注的问题。然而,近年来,我国的互联网技术发展十分迅猛,人们对网络信息时代的依赖性增强,各种各样的网络攻击也不断增多,这些网络攻击已经严重影响到了我们的日常生活。网络安全热点事件挖掘已经成为了当前网络安全行业的关注重点,多个发达国家已经成立了专门的网络安全组织对网络安全热点事件挖掘与舆情监控。网络安全关键词抽取从网络安全文本集合中抽取能够概括网络安全事件信息以及重要性的词语或者是短语,是网络安全热点事件挖掘与深度分析的重要基础部分。关键词抽取主要包含三个步骤:文本分词、去停用词、关键词评分。目前的中文文本分词主要利用文本分词工具来实现,主流的有结巴分词、snowNLP分词等,该分词工具的原理是利用分词系统中的分词词库以及字符匹配的方法来对文本自动化分词。由于网络安全领域的特异性、多元性导致大部分网络安全词汇没有出现在分词工具的词库中。去停用词即去除文本中对文本主旨没有意义的词语,这些词往往是介词、连词、副词等没有实际意义的词。关键词评分通常根据词语在文本中的特征作为评价指标,词语的特征评价有以下几类:基于词语权重统计的、基于词语主题信息分布的、基于词语之前语法关系的特征评价。目前的关键词抽取技术在网络安全文本中主要存在这些不足:当前分词系统对与网络安全领域词汇分词效果不高,需要对分词系统进行改进。并且关键词的评分技术对于网络安全文本中的词汇提取效果不高,无法展示网络安全文本的关键主旨。
技术实现思路
本专利技术的目的在于提供一种可靠性高、实用性好且准确率较高的基于深度神经网络的网络安全关键词抽取方法。本专利技术提供的这种基于深度神经网络的网络安全关键词抽取方法,包括如下步骤:S1.采集网络安全文本数据集;S2.构建深度神经网络;S3.采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,得到训练后的深度神经网络模型;S4.采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展;S5.根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果。步骤S1所述的采集网络安全文本数据集,具体为采用爬虫技术采集网络安全文本数据集。所述的采用爬虫技术采集网络安全文本数据集,具体为采用如下步骤获取网络安全文本数据集:A.对安全文本数据集进行定义;B.采用爬虫技术采集网络安全文本数据集;C.对步骤B采集的网络安全文本数据集进行数据清理,从而得到最终的清理后的网络安全文本数据集。步骤S2所述的构建深度神经网络,具体为采用如下步骤构建深度神经网络:a.采用此向量训练模型,将步骤S1获取的网络安全文本数据集转换为词向量序列;b.采用BiLSTM神经网络结构,对步骤a得到的词向量序列进行处理,从而得到每个字符在神经网络中各个标签类别的概率;c.对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别。步骤c所述的对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别,具体为采用条件随机场作为标签分类层,对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别。步骤S3所述的采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,具体为采用如下步骤进行训练:(1)对网络安全实体的类别进行定义;(2)对网络安全命名实体的标注方式进行定义;(3)对训练集进行标注;(4)将步骤(3)得到的标注后的训练集输入步骤S2得到深度神经网络模型进行特征学习。步骤S4所述的采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展,具体为采用如下步骤进行扩展:1)将文本输入步骤S3得到的训练后的深度神经网络模型,从而得到文本中的实体类别标签分类;2)根据步骤1)中的实体类别标签分类结果,对文本中的实体进行自动分类和组合,从而得到文本中所用的网络安全实体集合;3)将步骤2)得到的网络安全实体集合作为结巴分词的扩充词典,并通过结巴分词的分词函数对文本进行分词,从而得到最终的分词后的文本集合。步骤S5所述的根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果,具体为采用如下步骤进行抽取:Ⅰ.采用如下算式计算每篇文本中每个词语的TF频数tfij:式中tfij为第i篇文本的第j个词语频数表示;ni,j为第i篇文本的第j个词语在第i篇文本中出现的次数;nk,j为第i篇文本中的第k个词语出现的次数;k为第i篇文本中的第k个词语;Ⅱ.采用如下算式计算每个词语的IDF逆文档频率idfij:式中idfij为第i篇文本的第j个词语逆文档频率;wi,j为第i篇文本的第j个词语在第i篇文本中出现的次数;si,j为第i篇文本的第j个词语全文文本中出现的次数;Ⅲ.采用如下算式计算每个词语的权重v:式中v为词语的权重比值;α为词语在标题中的时候的权重比值,本文取1.3;β为词语属于网络安全实体时的权重取值,本文取1.5;Ⅳ.采用如下算式计算每个词语的TF-IDF权值tfidfij:tfidfij=tfij*idfij*v式中tfidfij为每个词语的权重;tfij为每个词语的TF频数;idfij为每个词语的IDF逆文档频率;v为词语的权重比值;Ⅴ.根据步骤Ⅳ得到的权值,获取文本中每个词的权重排序,从而得到每篇文本中前若干个关键词集合。本专利技术提供的这种基于深度神经网络的网络安全关键词抽取方法,提出了一种深度神经网络来改进文本分词的不足,并通过文本中每个词语的位置以及词性来提取文本的关键词集合;因此,本专利技术方法能够有效的提取网络安全文本中的关键词集合,具有较高的准确率,而且可靠性高,实用性好。附图说明图1为本专利技术方法的方法流程示意图。具体实施方式如图1所示为本专利技术方法的方法流程示意图:本专利技术提供的这种基于深度神经网络的网络安全关键词抽取方法,包括如下步骤:S1.采集网络安全文本数据集;具体为采用爬虫技术采集网络安全文本数据集;在具体实施时,采用如下步骤获取网络安全文本数据集:A.对安全文本数据集进行定义;定义待收集的文本数据集集合表示形式为G={T,A,S},其中T表示文本的标题,A表示文本的正文,S表示文本的来源网址;同时定义三元组{G,data_method,S},表示从来源网址为S的网站通过dat本文档来自技高网
...

【技术保护点】
1.一种基于深度神经网络的网络安全关键词抽取方法,包括如下步骤:/nS1.采集网络安全文本数据集;/nS2.构建深度神经网络;/nS3.采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,得到训练后的深度神经网络模型;/nS4.采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展;/nS5.根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果。/n

【技术特征摘要】
1.一种基于深度神经网络的网络安全关键词抽取方法,包括如下步骤:
S1.采集网络安全文本数据集;
S2.构建深度神经网络;
S3.采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,得到训练后的深度神经网络模型;
S4.采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展;
S5.根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果。


2.根据权利要求1所述的基于深度神经网络的网络安全关键词抽取方法,其特征在于步骤S1所述的采集网络安全文本数据集,具体为采用爬虫技术采集网络安全文本数据集。


3.根据权利要求2所述的基于深度神经网络的网络安全关键词抽取方法,其特征在于所述的采用爬虫技术采集网络安全文本数据集,具体为采用如下步骤获取网络安全文本数据集:
A.对安全文本数据集进行定义;
B.采用爬虫技术采集网络安全文本数据集;
C.对步骤B采集的网络安全文本数据集进行数据清理,从而得到最终的清理后的网络安全文本数据集。


4.根据权利要求3所述的基于深度神经网络的网络安全关键词抽取方法,其特征在于步骤S2所述的构建深度神经网络,具体为采用如下步骤构建深度神经网络:
a.采用此词向量训练模型,将步骤S1获取的网络安全文本数据集转换为词向量序列;
b.采用BiLSTM神经网络结构,对步骤a得到的词向量序列进行处理,从而得到每个字符在神经网络中各个标签类别的概率;
c.对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别。


5.根据权利要求4所述的基于深度神经网络的网络安全关键词抽取方法,其特征在于步骤c所述的对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别,具体为采用条件随机场作为标签分类层,对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理,从而得到最终的每个字符的标签类别。


6.根据权利要求5所述的基于深度神经网络的网络安全关键词抽取方法,其特征在于步骤S3所述的采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,具体为采用如下步骤进行训练:
(1)对网络安全实体的...

【专利技术属性】
技术研发人员:宋虹陈济民林丹丹王伟平
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1