【技术实现步骤摘要】
一种基于辅助向量的网络安全领域命名实体识别方法和系统
[0001]本专利技术涉及网络安全领域,尤其涉及一种构建辅助向量,并结合BERT
‑
BiLSTM
‑
CRF模型的网络安全领域命名实体识别技术。
技术介绍
[0002]随着互联网的飞速发展,为了满足行业内互联网用户的不同需求,各种具有多样化和个性化的新型技术层出不穷,并且互联网数据和信息均呈爆炸式增长。由于互联网数据的海量增长,为了保证信息的安全性,网络安全成为各行各业关注的重点。网络安全领域作为低资源场景,它的数据语料数量目前还比较匮乏,而且数据结构具有复杂多样的特点,这就为网络安全领域数据处理,网络安全监测防护以及网络安全命名实体识别等带来一定的挑战。目前网络安全领域数据呈现信息冗杂,结构各异的特点,如何有效处理数据,提取出有价值的关键性信息成为亟待解决的问题之一。
[0003]网络安全相关的数据复杂多样,包括流量日志、事件通告、威胁情报等。网络数据分为结构化数据,半结构化数据和非结构化数据。其中结构化数据可以被机器语言直接处理,而半结构化数据和非结构化数据需要经过加工处理提取关键信息后才能被直接利用。本专利主要关注网络安全领域相关的文本类数据,通过构建网络安全领域的命名实体识别技术来提高领域内信息抽取的效率。
[0004]命名实体识别(NER)主要用来识别文本数据中例如人名,位置和组织等预先定义的语义类型。一般来说,预先定义的语义类型包括以下三大类:实体类,数字类和时间类,七小类:百分比,货币,日期,时间,地 ...
【技术保护点】
【技术特征摘要】
1.一种基于辅助向量的网络安全领域命名实体识别方法,其步骤包括:将输入文本按字符进行划分;依据词典非完全匹配方式依次构建划分后的每个字符对应的实体词语序列,并计算实体词语序列的长度矩阵和位置矩阵;利用Word2Vec词嵌入方法将实体词语序列转化为对应的实体词语向量序列;依次拼接实体词语向量序列与长度矩阵和位置矩阵,得到拼接矩阵,然后通过计算字符对应的拼接矩阵之间的相似度构建辅助向量矩阵;利用构建的辅助向量矩阵,结合BERT
‑
BiLSTM
‑
CRF模型对输入文本进行标签预测。2.根据权利要求1所述的方法,其特征在于,所述将输入文本按字符进行划分,包括:将模型的输入文本S按字符划分成如下形式:S={w1,w2,w3,...,w
n
},其中w
i
表示每一个字符,1≤i≤n,n表示输入文本S的长度。3.根据权利要求2所述的方法,其特征在于,所述依据词典非完全匹配方式依次构建划分后的每个字符对应的实体词语序列,包括:对于输入文本S={w1,w2,w3,...,w
n
}中的每个字符w
i
,在网络安全领域词典Dic中查找所有包含字符w
i
的实体词语,如果实体词语包含该字符,即匹配成功,将匹配成功的实体词语添加到字符的实体词语序列中,最终构建字符w
i
对应的实体词语序列W
i
:其中表示网络安全领域词典中包含字符w
i
的实体词语,1≤j
i
≤N
i
,N
i
表示字符w
i
对应的实体词语个数。4.根据权利要求3所述的方法,其特征在于,通过以下步骤构建所述辅助向量矩阵:输入文本S={w1,w2,w3,...,w
n
}中字符w
i
‑1,w
i
,w
i+1
通过词典非完全匹配后得到对应的实体词语序列W
i
‑1,W
i
,W
i+1
;利用Word2Vec词嵌入方法将W
i
‑1,W
i
,W
i+1
转化为q维词向量表示,得到对应的词向量矩阵V
i
‑1,V
i
和V
i+1
;将词向量矩阵依次与词语长度矩阵L
i
和位置矩阵P
i
进行拼接,得到的拼接矩阵V
′
i
‑1,V
′
i
,V
′
i+1
;计算拼接矩阵V
′
i
分别与V...
【专利技术属性】
技术研发人员:杨姗姗,彭媛媛,张海霞,连一峰,黄克振,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。