System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种智能电网网络安全知识图谱的构建方法技术_技高网

一种智能电网网络安全知识图谱的构建方法技术

技术编号:40631926 阅读:6 留言:0更新日期:2024-03-13 21:17
本发明专利技术公开了一种智能电网网络安全知识图谱的构建方法,首先,爬取数据,包括结构化数据、半结构化数据和非结构化数据;构建本体模型,通过分析结构化数据所包含的信息类型,结合现有本体模型和专家经验自顶向下的构建知识图谱的初始模式层;然后,针对不同半结构化和非结构化文本的特点,采用基于规则或者基于深度学习的知识抽取方法,完成数据标注、实体抽取和关系构建;接着,经过知识融合后,在初始模式层的指导下构建数据层;之后,进行知识更新,包括模式层的更新和数据层的更新。本发明专利技术通过在人工标注的小规模混合语言数据集上训练,得到优于基准模型的性能,实现电网网络安全文本的实体抽取,从而服务于知识图谱的构建。

【技术实现步骤摘要】

本专利技术属于电力技术中的智能电网,特别涉及一种智能电网网络安全知识图谱的构建方法


技术介绍

1、现代信息通信技术在给电网智能化发展带来便利的同时,也带来了网络安全隐患。为了有效应对和防范网络攻击可能造成的破坏和影响,必须充分发掘电力系统中存在的网络安全漏洞,同时对网络攻击者可能采取的攻击方法进行识别。然而,电力领域的网路安全知识往往存在于工业控制系统(industrial control system,ics)相关的漏洞库、安全知识库、技术论坛中,存在着来源分散、结构差异大、中英文混杂的问题。因此亟需通过智能化技术将电力系统相关的网络安全知识从海量的多源异构数据中抽取提炼出来,并将这些知识组织成结构化、可视化的表现形式。

2、知识图谱是google公司提出的一种知识表示方法,能够以图的形式表现客观世界中的实体及其相互关系。通过对多源异构数据进行整合和知识提取,知识图谱包含了实体之间更丰富的语义关联信息,常被应用于知识库的构建。

3、知识图谱在金融、医疗等领域得到了广泛应用,在电力领域的应用也进行了很多探索。目前,研究人员主要将知识图谱技术作为一种知识管理方法,应用于电力设备的健康管理、电力系统的故障定位和电力系统异构数据管理等(参见文献:叶欣智,尚磊,董旭柱等.面向配电网故障处置的知识图谱研究与应用[j].电网技术,2022,46(10):3739-3749)。但是尚不存在面向智能电网网络安全的知识图谱构建方法的研究。

4、现有知识图谱构建方案,通常包括模式层构建和数据层构建,数据层通过知识抽取、知识融合和知识更新三个环节完成构建。其中,知识抽取环节又包括实体抽取、关系抽取和属性抽取三步,而实体抽取和属性抽取都可以由命名实体识别算法(named entityrecognition,ner)实现。现有的ner算法经历了三个阶段的发展,包括基于词典和规则的方法、基于机器学习的方法和基于深度学习的方法。自从bert预训练模型问世以来,ner任务的基准模型已经从bilstm-crf进化到了bert-bilstm-crf三层模型。

5、bert是一个基于transformer架构的语言表征模型,能够根据上下文语义信息生成文本每个词的嵌入表示。bert完美地替代了以往的word2vec模型,作为ner模型的嵌入层,生成输入文本的词向量序列。双向长短时记忆网络(bi-direction long short-termmemory,bilstm)可以同时捕捉序列的正向和反向信息,从而学习上下文语义。在输入词向量序列后,bilstm层将输出每个词对应于每种标签的得分概率。条件随机场(conditionalrandom fields,crf)层可以学习标签之间的依赖关系,约束每个词的标签分类并修正bilstm层的输出,从而保证预测标签的合理性。

6、然而,bert-bilstm-crf模型无法解决ner任务因数据标注成本高而导致的数据集规模较小的问题;bert-bilstm-crf模型只适用于特定语言,而无法处理多语言混合文本。

7、专利技术目的

8、本专利技术的目的就是针对现有技术中所存在的不足,提出一种智能电网网络安全知识图谱的构建方法,解决少量标注数据下多语言实体抽取的难题,为电力系统网络安全风险识别提供了有力支撑。


技术实现思路

1、本专利技术提供了一种智能电网网络安全知识图谱的构建方法,包括以下步骤:

2、步骤1、爬取数据,包括结构化数据、半结构化数据和非结构化数据;构建本体模型,通过分析结构化数据所包含的信息类型,结合现有本体模型和专家经验自顶向下的构建知识图谱的初始模式层;

3、步骤2、针对不同半结构化和非结构化文本的特点,采用基于规则或者基于深度学习的知识抽取方法,完成数据标注、实体抽取和关系构建;

4、步骤3、经过知识融合后,在初始模式层的指导下构建数据层。

5、优选地,在构建本体模型时,将本体分为网络安全领域本体和电力领域本体,以“七步法”构建了智能电网网络安全知识图谱本体模型。

6、优选地,步骤2中采用基于规则的知识抽取方法处理半结构化数据,采用深度学习方法处理非结构化数据,构建基于五层架构的da-xlmr-bilstm-fc-crf模型,包括数据增强da层,xlmr层,bilstm层,特征串联fc层和crf层五部分。

7、优选地,在所述数据增强da层,利数据增强方法分为训练阶段和生成阶段,在训练阶段,将标签信息插入到实体词前后用于标记其位置和类型,之后,采用全词掩码策略随机掩码实体词,送入预训练的掩码语言模型mlm中进行微调,经过微调的mlm模型能够预测出符合上下文语境的实体词;

8、在生成阶段,对原始标记语料进行与训练阶段相同的标签插入和随机掩码处理,送入经过微调的mlm模型,得到实体词被替换的语句;经过脚本处理,这些增强语句被转化为和原始语料结构相同的标记语料;最后,将原始语料与增强语料混合后用于整体模型的训练。

9、可选地,所采用的数据增强算法被替换为同义词替换、同标签词替换、无标签词替换算法。

10、优选地,输入xlmr层的文本首先通过tokenizer工具进行分词处理,文本被划分为子词token后会额外添加标识句子首尾的特殊符号“<s>”和“</s>”,然后经过字典映射形成子词token序列t;之后,xlmr模型会对序列t中的每个子词token进行嵌入,得到词向量序列e={e1,e2,e3,…,en};其中,ei为第i个子词token对应的向量表示,各词向量维度均为768维。

11、优选地,词向量序列e输入到bilstm层后,前向的lstm得到隐藏向量序列hl={hl1,hl2,hl3,…,hln},后向的lstm得到隐藏向量序列hr={hr1,hr2,hr3,…,hrn},最后将hl和hr进行向量拼接得到隐藏层序列{[hl1,hr1],[hl2,hr2],[hl3,hr3],…,[hln hrn]},即bilstm层输出h={h1,h2,h3,…,hn}。

12、优选地,特征串联fc层将xlmr层输出e和bilstm层输出h进行特征串联操作,得到输出向量序列h={[e1,h1],[e2,h2],[e3,h3],…,[en,hn]};之后,经过全连接层转换为得分序列p={p1,p2,p3,…,pn},其中,pi的维度等于实体标签的类型数,pij表示第i个子词token被分类为第j种实体标签的得分。

13、优选地,得分序列p作为发射分数输入crf层,crf层会训练一个转移矩阵m,矩阵元素mij表示前一个标签类型为i的情况下,当前标签类型为j的转移分数;crf层通过发射分数和转移分数计算损失函数,从而不断更新转移矩阵m;最后,crf层通过维特比算法求解出最优的实体标签序列o={o1,o2,o3,…,on},其中oi即表示第i个子词token的实体标签类型。

本文档来自技高网...

【技术保护点】

1.一种智能电网网络安全知识图谱的构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,在构建本体模型时,将本体分为网络安全领域本体和电力领域本体,以“七步法”构建了智能电网网络安全知识图谱本体模型。

3.根据权利要求1所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,步骤2中采用基于规则的知识抽取方法处理半结构化数据,采用深度学习方法处理非结构化数据,构建基于五层架构的DA-XLMR-BiLSTM-FC-CRF模型,包括数据增强DA层,XLMR层,BiLSTM层,特征串联FC层和CRF层五部分。

4.根据权利要求3所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,在所述数据增强DA层,利数据增强方法分为训练阶段和生成阶段,在训练阶段,将标签信息插入到实体词前后用于标记其位置和类型,之后,采用全词掩码策略随机掩码实体词,送入预训练的掩码语言模型MLM中进行微调,经过微调的MLM模型能够预测出符合上下文语境的实体词;

5.根据权利要求4所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,所述数据增强DA层所采用的数据增强算法被替换为同义词替换、同标签词替换、无标签词替换算法。

6.根据权利要求3所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,输入XLMR层的文本首先通过Tokenizer工具进行分词处理,文本被划分为子词token后会额外添加标识句子首尾的特殊符号“<s>”和“</s>”,然后经过字典映射形成子词token序列T;之后,XLMR模型会对序列T中的每个子词token进行嵌入,得到词向量序列E={E1,E2,E3,…,En};其中,Ei为第i个子词token对应的向量表示,各词向量维度均为768维。

7.根据权利要求3所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,词向量序列E输入到BiLSTM层后,前向的LSTM得到隐藏向量序列hL={hL1,hL2,hL3,…,hLn},后向的LSTM得到隐藏向量序列hR={hR1,hR2,hR3,…,hRn},最后将hL和hR进行向量拼接得到隐藏层序列{[hL1,hR1],[hL2,hR2],[hL3,hR3],…,[hLn hRn]},即BiLSTM层输出h={h1,h2,h3,…,hn}。

8.根据权利要求3所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,特征串联FC层将XLMR层输出E和BiLSTM层输出h进行特征串联操作,得到输出向量序列H={[E1,h1],[E2,h2],[E3,h3],…,[En,hn]};之后,经过全连接层转换为得分序列P={P1,P2,P3,…,Pn},其中,Pi的维度等于实体标签的类型数,Pij表示第i个子词token被分类为第j种实体标签的得分。

9.根据权利要求3所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,得分序列P作为发射分数输入CRF层,CRF层会训练一个转移矩阵M,矩阵元素Mij表示前一个标签类型为i的情况下,当前标签类型为j的转移分数;CRF层通过发射分数和转移分数计算损失函数,从而不断更新转移矩阵M;最后,CRF层通过维特比算法求解出最优的实体标签序列O={O1,O2,O3,…,On},其中Oi即表示第i个子词token的实体标签类型。

10.根据权利要求1所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,在知识融合时,针对文本共指问题进行消解,包括存在名词缩写和大小写混用的情况、存在不同数据源的表述不一致的情况两个方面;所述名词缩写和大小写混用的情况出现在“公司”类实体中,这方面通过构建电气企业词典,对“公司”类实体进行词典匹配完成共指消解;表述不一致的情况表现在CAPEC的攻击类型枚举和ATT&CK的攻击技术中,这方面通过采取SBERT算法来计算攻击描述文本的相似度,从而合并表述相近的攻击方法。

11.根据权利要求1所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,在构建数据层之后,还要进行知识更新,包括模式层的更新和数据层的更新,采用增量更新的方式降低资源消耗;模式层的更新依靠人工方法,将新增数据中出现的新实体类型加入模式层,并设定其与现有实体类型的关系;数据层的更新是在模式层的指导下,利用原有知识抽取方法对新增数据进行处理,然后将实体和关系加入知识图谱。

...

【技术特征摘要】

1.一种智能电网网络安全知识图谱的构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,在构建本体模型时,将本体分为网络安全领域本体和电力领域本体,以“七步法”构建了智能电网网络安全知识图谱本体模型。

3.根据权利要求1所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,步骤2中采用基于规则的知识抽取方法处理半结构化数据,采用深度学习方法处理非结构化数据,构建基于五层架构的da-xlmr-bilstm-fc-crf模型,包括数据增强da层,xlmr层,bilstm层,特征串联fc层和crf层五部分。

4.根据权利要求3所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,在所述数据增强da层,利数据增强方法分为训练阶段和生成阶段,在训练阶段,将标签信息插入到实体词前后用于标记其位置和类型,之后,采用全词掩码策略随机掩码实体词,送入预训练的掩码语言模型mlm中进行微调,经过微调的mlm模型能够预测出符合上下文语境的实体词;

5.根据权利要求4所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,所述数据增强da层所采用的数据增强算法被替换为同义词替换、同标签词替换、无标签词替换算法。

6.根据权利要求3所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,输入xlmr层的文本首先通过tokenizer工具进行分词处理,文本被划分为子词token后会额外添加标识句子首尾的特殊符号“<s>”和“</s>”,然后经过字典映射形成子词token序列t;之后,xlmr模型会对序列t中的每个子词token进行嵌入,得到词向量序列e={e1,e2,e3,…,en};其中,ei为第i个子词token对应的向量表示,各词向量维度均为768维。

7.根据权利要求3所述的一种智能电网网络安全知识图谱的构建方法,其特征在于,词向量序列e输入到bilstm层后,前向的lstm得到隐藏向量序列hl={hl1,hl2,hl3,…,hln},后向的lstm得到隐藏向量序列hr={hr1,hr2,hr3,…,hrn},最后将hl和hr进行向量...

【专利技术属性】
技术研发人员:杜晔彭真郑天帅陈奇芳卢思洋黎妹红
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1