一种网络空间战略情报分类方法、设备及介质技术

技术编号:33201546 阅读:59 留言:0更新日期:2022-04-24 00:39
本发明专利技术公开了一种网络空间战略情报分类方法、设备及介质,其中方法包括以下步骤:对互联网端采集的网络空间战略情报新闻数据进行分类标记;采用结巴分词加上自定义词典完成专有名词及特殊词语的分词;根据分词后的结果,利用word2vec实现词嵌入模型的生成;对分词后的数据生成词向量;采用textCNN和LSTM网络结构进行模型的训练,通过对模型的参数进行调整找出多个分类效果较好模型;将未标记的数据经过分词和转换成词向量后,输入多个分类模型,依次得到每个模型的输出结果;采用少数服从多数的决策得到最终分类结果;最终分类结果及其使用后修改确定的结果,自动地进行增量学习。本发明专利技术可解决网络空间战略情报语料库的缺失。本发明专利技术可解决网络空间战略情报语料库的缺失。本发明专利技术可解决网络空间战略情报语料库的缺失。

【技术实现步骤摘要】
一种网络空间战略情报分类方法、设备及介质


[0001]本专利技术涉及数字数据处理
,尤其涉及一种网络空间战略情报分类方法、设备及介质。

技术介绍

[0002]网络空间战略情报分类是对情报内容快速掌握的重要环节,该技术可以对大批量的战略情报新闻进行类别整理,以较高的精度划分新闻类型,提高使用者快速定位新闻类别以获取有效信息,节省人力资源成本。目前主要有以下两种解决方案:
[0003]1)通过建立网络空间战略情报不同类型的词汇表,通过词汇表匹配确定情报类型。采用这种方式可以直观快速的对网络空间战略情报进行分类,但其局限于网络空间领域不同类型的战略情报词汇具有纵横交叉的关系,无法简单的从词汇表分类模式进行类别判断,容易造成误分类。
[0004]2)通过分类模型进行网络空间战略情报分类,该方法首先需要大量的已标记类型数据,从而通过机器学习、深度学习算法判断数据的类型。该方法的局限性包含两个:首先是缺少网络空间战略情报的语料库,没有足够的已标记数据作为训练分类模型的原始支撑;其次是缺少网络空间战略情报数据的分词词汇表,鉴于该领域有不少专业名词及大部分数据来源于国外站点,现有的分词算法无法精准对该领域数据进行分词,导致网络空间战略情报数据分词效果较差,无法基于这种分词构建出好的词向量模型,从而进一步影响分类模型的质量。
[0005]针对以上列出的现有存在的缺陷,需要提出更合理的技术方案,对网络空间战略情报进行分类,解决词汇表匹配、语料库缺失、分词不准确等问题。

技术实现思路

[0006]为了解决上述问题,本专利技术提出一种网络空间战略情报分类方法、设备及介质,解决了网络空间战略情报语料库缺失,现有分词工具无法对网络空间领域新闻数据正确分词的问题。同时通过自动扩充语料库的方式进行增量学习,将模型的分类准确性保持在高质量水平状态。
[0007]本专利技术采用的技术方案如下:
[0008]一种网络空间战略情报分类方法,包括:
[0009]步骤1:对互联网端采集的网络空间战略情报新闻数据进行分类标记;
[0010]步骤2:采用jieba分词加上自定义词典完成专有名词及特殊词语的分词;
[0011]步骤3:根据步骤2中分词后的结果,利用word2vec实现词嵌入模型的生成;
[0012]步骤4:根据步骤3生成的词嵌入模型,对分词后的数据生成词向量;
[0013]步骤5:根据步骤4生成的词向量,采用textCNN和LSTM网络结构进行模型的训练,通过对模型的参数进行调整找出多个分类效果较好模型;
[0014]步骤6:将未标记的网络空间战略情报数据经过分词和转换成词向量后,输入步骤
5中的多个分类模型,依次得到每个模型的输出结果;
[0015]步骤7:根据步骤6中的输出结果,采用少数服从多数的决策得到最终分类结果;
[0016]步骤8:根据步骤7的最终分类结果及其使用后修改确定的结果,自动地进行增量学习。
[0017]进一步地,步骤2中分词后的结果再进行去停用词处理。
[0018]进一步地,步骤3中采用word2vec算法进行词嵌入的训练,每个词语用300维表示,训练得到一个3层的网络结构,包含两个矩阵权重。
[0019]进一步地,步骤4中分词后的数据按照分词顺序形成宽度相同,高度不同的矩阵。
[0020]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的网络空间战略情报分类方法的步骤。
[0021]一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述的网络空间战略情报分类方法的步骤。
[0022]本专利技术的有益效果在于:
[0023]1)本专利技术针对网络空间战略情报语料库缺失问题,提出网络空间战略情报语料库及分词词汇表的方法,可解决数据源质量参差不齐的问题,提高分类模型的有效性,弥补网络空间领域语料库空缺问题,具有实际的应用价值。同时采用自动增量更新高质量训练数据集的方法,使模型质量趋于更高。
[0024]2)本专利技术针对网络空间战略情报分类存在样本少,分类效果较差的问题,提出基于多个模型多分类,分类结果采用少数服从多数的策略,提升模型预测准确性,具有广阔的应用价值。
[0025]3)本专利技术针对网络空间战略情报在未来会出现更多的新词汇上,采用构建本地的分词词汇表,支持人为的更新分词词汇表,让模型具有更强的适应性。
附图说明
[0026]图1是本专利技术实施例1的网络空间战略情报分类方法流程图。
[0027]图2是本专利技术实施例1的网络空间战略情报新闻数据分类标记示意图。
[0028]图3是本专利技术实施例1的增量学习及更新模型。
具体实施方式
[0029]为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现说明本专利技术的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术,即所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]实施例1
[0031]如图1所示,本实施例提供了一种网络空间战略情报分类方法,包括:
[0032]步骤1:对互联网端采集的网络空间战略情报新闻数据进行分类标记,如图2所示,具体划分包含如下几种:网络空间分类1、网络空间分类2、网络空间分类3、网络空间分类4、网络空间分类5、网络空间分类6。
[0033]步骤2:采用jieba分词加上自定义词典完成专有名词及特殊词语的分词。自定义词典主要包含难以用现有语料库进行分词的内容,如:计算机应急响应小组等。因此将这些词汇带上权重值加入字典中,同时如:当后者词语包含前者的词语时,需设置后者权重超过前者。再者对分词后的结果进行去停用词处理,对诸如:一些、一般、不至于等和新闻关系不大的词语去掉,提高后续词向量的精度。
[0034]步骤3:根据步骤2中分词后的结果,利用word2vec实现词嵌入模型的生成。优选地,每个词语用300维表示,训练得到一个3层的网络结构,包含两个矩阵权重。
[0035]步骤4:根据步骤3生成的词嵌入模型,对ODS中分词后的数据生成词向量。优选地,将分词后的文章按照分词顺序形成宽度相同,高度不同的矩阵(宽度由word2vec确定,高度由文章的分词后词语的数量决定),此矩阵为该文章的词向量表示形式。
[0036]步骤5:根据步骤4生成的词向量,采用textCNN和LSTM网络结构进行模型的训练,通过对模型的参数进行调整找出多个分类效果较好模型。优选地,对textCNN模型参数调整获取4个分类效果较好的模型,对LSTM模型参数调整获取2个分类效果较好的模型。
[0037]步骤6:将未标记的网络空间战略情报数据经过分词和转换成词向量后,输入步骤5中的多个分类模型,依次得到每个模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络空间战略情报分类方法,其特征在于,包括:步骤1:对互联网端采集的网络空间战略情报新闻数据进行分类标记;步骤2:采用jieba分词加上自定义词典完成专有名词及特殊词语的分词;步骤3:根据步骤2中分词后的结果,利用word2vec实现词嵌入模型的生成;步骤4:根据步骤3生成的词嵌入模型,对分词后的数据生成词向量;步骤5:根据步骤4生成的词向量,采用textCNN和LSTM网络结构进行模型的训练,通过对模型的参数进行调整找出多个分类效果较好模型;步骤6:将未标记的网络空间战略情报数据经过分词和转换成词向量后,输入步骤5中的多个分类模型,依次得到每个模型的输出结果;步骤7:根据步骤6中的输出结果,采用少数服从多数的决策得到最终分类结果;步骤8:根据步骤7的最终分类结果及其使用后修改确定的结果,自动地进行增量学习。2.根据权利要求1所述的网络空间战略...

【专利技术属性】
技术研发人员:伍荣郭海冯中华操文成宋焱淼盘善海王天宇裴华
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1