基于One-shot学习的网络安全知识抽取方法和装置制造方法及图纸

技术编号:26343610 阅读:70 留言:0更新日期:2020-11-13 20:47
本申请涉及一种基于One‑shot学习的网络安全知识抽取方法和装置。所述方法包括:从互联网中获取目标文本,以及得到分段集合,对分段集合中的段落进行位置编码,采用注意力机制,计算分段集合中每一段落的注意力权重;将每一段落输入预先训练的领域分类模型,得到段落的领域标签;采用攻击指示器提取的方式,提取威胁类型集合和威胁类型的触发词集合;根据领域标签、威胁类型集合以及触发词集合,确定段落的域标记;根据域标记,在知识库中提取候选安全知识集合;根据候选安全知识集合和注意力权重,采用One‑shot学习的方式,得到目标文本的网络安全知识。本方法能够提取安全知识的可靠性。

Method and device of network security knowledge extraction based on one shot learning

The application relates to a network security knowledge extraction method and device based on one \uffe3 shot learning. The method includes: obtaining the target text from the Internet and getting the segmented set, encoding the position of the paragraphs in the segmented set, using the attention mechanism to calculate the attention weight of each paragraph in the segmented set; inputting each paragraph into the domain classification model trained in advance to obtain the domain label of the paragraph; extracting the threat by extracting the attack indicator According to the domain label, threat type set and trigger word set, the domain label of the paragraph is determined; according to the domain label, threat type set and trigger word set, the candidate security knowledge set is extracted from the knowledge base; according to the candidate security knowledge set and attention weight, the network security knowledge of the target text is obtained by one \uffe3 shot learning. This method can extract the reliability of safety knowledge.

【技术实现步骤摘要】
基于One-shot学习的网络安全知识抽取方法和装置
本申请涉及计算机
,特别是涉及一种基于One-shot学习的网络安全知识抽取方法和装置。
技术介绍
目前,大量的漏洞或者攻击模式的标准数据库中是由“一个ID”、“一个名称”与“一段文本描述”组合构成的,形成典型的one-shot问题。从文档级角度看,整篇文章可能涵盖到多个主题内容,需要进一步明确文章中的哪一章在描述相关知识。在已有的网络安全非结构化文本数据中,漏洞、攻击模式以及技战术等核心元素并非以标准化ID或者名称出现,这给多源异构的文本数据中自动化的精确抽取相关知识带来了困难。当前知识抽取方法,只能够基于统计对文本的主题进行统计,或者简单地抽取文中出现的实体,不能够将相关知识关联到具体的知识上。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够目前知识抽取方式无法较好的提取出安全知识问题的基于One-shot学习的网络安全知识抽取方法和装置。一种基于One-shot学习的网络安全知识抽取方法,所述方法包括:从互联网中获取目标文本本文档来自技高网...

【技术保护点】
1.一种基于One-shot学习的网络安全知识抽取方法,其特征在于,所述方法包括:/n从互联网中获取目标文本,对所述文本进行分段处理,得到分段集合,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重;/n将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签;/n采用攻击指示器提取的方式,提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合;/n根据所述领域标签、所述威胁类型集合以及所述触发词集合,确定所述段落的域标记;/n根据所述域标记,在预先构建的知识库中提取候选安全知识集合;/n根据所述候选安全知识集合...

【技术特征摘要】
1.一种基于One-shot学习的网络安全知识抽取方法,其特征在于,所述方法包括:
从互联网中获取目标文本,对所述文本进行分段处理,得到分段集合,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重;
将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签;
采用攻击指示器提取的方式,提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合;
根据所述领域标签、所述威胁类型集合以及所述触发词集合,确定所述段落的域标记;
根据所述域标记,在预先构建的知识库中提取候选安全知识集合;
根据所述候选安全知识集合和所述注意力权重,采用One-shot学习的方式,得到目标文本的网络安全知识。


2.根据权利要求1所述的方法,其特征在于,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重,包括:
对所述分段集合中的段落进行位置编码,得到位置标记;
对段落进行句、词级别的向量化,得到段落特征;
根据所述段落特征和所述位置标记,采用注意力机制,计算得到所述分段集合中每一段落的注意力权重。


3.根据权利要求1所述的方法,其特征在于,将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签,包括:
对所述分段集合中的每一段落进行预处理,并对预处理结果进行词嵌入,得到段落中各个分词对应的段落向量;
将所述段落向量输入预先训练的领域分类模型,得到所述段落的领域标签。


4.根据权利要求2所述的方法,其特征在于,所述领域分类模型为卷积神经网络模型;所述卷积神经网络模型的输出层:



其中,表示段落向量,表示第i个分词对应的词向量,表示分词的权重,表示第i个分词的权重,b表示偏置,表示激活函数;
所述卷积神经网络模型的损失函数为:




表示段落向量对应的实际领域标签;
将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签,包括:
将所述段落向量输入预先训练的卷积神经网络模型,得到所述段落的领域标签。


5.根据权利要求1至3任意一项所述的方法,其特征在于,采用攻击指示器提取的方式,提取所述段落的威胁类型集合,...

【专利技术属性】
技术研发人员:丁兆云刘凯潘永琪张维明周鋆黄松平朱先强汤罗浩刘斌刘毅
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1