一种基于辅助向量的网络安全领域命名实体识别方法和系统技术方案

技术编号:39316315 阅读:7 留言:0更新日期:2023-11-12 15:59
本发明专利技术提供了一种基于辅助向量的网络安全领域命名实体识别方法和系统。该方法包括:通过词典非完全匹配方式获取输入文本中字符的实体词语序列;利用Word2Vec方法将实体词语序列转化为词向量;词向量矩阵依次与词语长度矩阵和位置矩阵进行拼接,得到拼接矩阵;通过计算字符对应的拼接矩阵之间的相似度构建辅助向量矩阵;最后利用构建的辅助向量矩阵,结合BERT

【技术实现步骤摘要】
一种基于辅助向量的网络安全领域命名实体识别方法和系统


[0001]本专利技术涉及网络安全领域,尤其涉及一种构建辅助向量,并结合BERT

BiLSTM

CRF模型的网络安全领域命名实体识别技术。

技术介绍

[0002]随着互联网的飞速发展,为了满足行业内互联网用户的不同需求,各种具有多样化和个性化的新型技术层出不穷,并且互联网数据和信息均呈爆炸式增长。由于互联网数据的海量增长,为了保证信息的安全性,网络安全成为各行各业关注的重点。网络安全领域作为低资源场景,它的数据语料数量目前还比较匮乏,而且数据结构具有复杂多样的特点,这就为网络安全领域数据处理,网络安全监测防护以及网络安全命名实体识别等带来一定的挑战。目前网络安全领域数据呈现信息冗杂,结构各异的特点,如何有效处理数据,提取出有价值的关键性信息成为亟待解决的问题之一。
[0003]网络安全相关的数据复杂多样,包括流量日志、事件通告、威胁情报等。网络数据分为结构化数据,半结构化数据和非结构化数据。其中结构化数据可以被机器语言直接处理,而半结构化数据和非结构化数据需要经过加工处理提取关键信息后才能被直接利用。本专利主要关注网络安全领域相关的文本类数据,通过构建网络安全领域的命名实体识别技术来提高领域内信息抽取的效率。
[0004]命名实体识别(NER)主要用来识别文本数据中例如人名,位置和组织等预先定义的语义类型。一般来说,预先定义的语义类型包括以下三大类:实体类,数字类和时间类,七小类:百分比,货币,日期,时间,地名,机构名和人名。近年来,命名实体识别在诸多应用方面具有重要作用,比如:信息抽取,问答系统,信息检索和机器翻译等。命名实体识别(NER)主要包含以下几种技术方法:基于规则和词典的方法、基于统计的方法、基于深度学习的方法。
[0005]基于规则和词典的方法是命名实体识别最早采用的方法,该方法多采用通过各领域内专家选定特征来手动构建规则模板,特征包括关键字,特征符号和特征中心词等,然后利用模式和字符串相匹配的手段。由于是基于词典的方法,所以该方法大多依赖建立的词典和知识库。基于规则和词典的方法依赖人工制定规则,而各领域的文本数据,语言风格又大不相同,所以人工制定的规则难以覆盖所有领域语言,系统可移植性差,不同的领域需要专家重新制定规则,耗费时长与人力。
[0006]基于统计的方法是利用传统的机器学习模型,,主要方法包括:隐马尔可夫模型(HMM)、最大熵马尔科夫模型(HEMM)、支持向量机(SVM)和条件随机场(CRF)。其中最大熵马尔科夫模型(HEMM)的优点是通用性较好,缺点是训练时间过于庞大复杂,难以承受,另外HEMM需要进行归一化计算,进一步导致算法开销增大。最大熵马尔科夫模型(HEMM)和支持向量机(SVM)相较于隐马尔可夫模型(HMM)的正确率比较大,但是隐马尔可夫模型(HMM)的训练速度和识别速度更快一些,因此它更适合在实时性方面有要求或者处理的文本数据量较大的命名实体识别。条件随机场(CRF)作为命名实体识别技术中的主流模型,相较于传统
模型只考虑输入的特征函数,它还包含了标签转移特征函数,因此各个token的标签预测过程不再是独立的,而是能够利用上下文已经预测好的标签,即充分利用了文本中上下文的语义关系。由于上述基于统计的方法大都依赖规模较大的语料库来进行训练,所以对于训练语料不足的领域来说也是一种制约。
[0007]基于深度学习的方法中较为主流的方法是BiLSTM

CRF模型,BiLSTM是RNN的一种特殊类型,相较于RNN,它采用双向长短时记忆网络并且解决了学习长距离依赖的问题,成为基于深度学习的命名实体识别方法中的主流模型。近几年,注意力机制备受人们关注,有学者将其引入BiLSTM

CRF模型中来提高识别精度。
[0008]网络安全领域命名实体识别技术还不够成熟。但是提高网络安全信息抽取效率和维护网络空间安全已经成为社会亟待解决的问题之一。由于实际情况中,网络安全领域语料严重匮乏,通常需要通过人工爬虫等其他方法手工获取语料进行扩充训练。一方面人工收集到的语料具有冗杂,非结构化的特点,另一方面获取到的语料数量仍然有限。因此,如何充分的利用有限的训练语料信息,将其信息有效性发挥到最大以及提高网络安全领域命名实体识别的准确率成为本专利技术重点关注的内容。

技术实现思路

[0009]在构建网络安全领域命名实体识别模型方面,为解决单一网络安全领域语料不足以及命名实体识别正确率低的问题,本专利技术提供了一种基于通用模型BERT

BiLSTM

CRF的基础上构建辅助向量的网络安全领域命名实体识别模型,该模型通过构建辅助向量来增强文本语义关系从而进一步提高命名实体识别正确率,其中辅助向量包含了字符的上下文信息,位置信息和字符之间的最大相似度信息。本专利技术主要利用网络安全领域已有词典对输入文本进行非完全匹配,然后再通过Word2Vec词嵌入方法得到嵌入向量后计算文本的相似度,最终构建辅助向量作为后续标签预测模型的输入。
[0010]为实现上述目的,本专利技术的技术方案包括:
[0011]一种基于辅助向量的网络安全领域命名实体识别方法,该方法通过构建辅助向量,结合BERT

BiLSTM

CRF模型进行网络安全领域命名实体识别,其步骤包括:
[0012]1)将模型的输入文本S按字符划分成如下形式:S={w1,w2,w3,

,w
n
},其中w
i
(1≤i≤n)表示每一个字符,n表示输入文本S的长度;
[0013]2)依据词典非完全匹配方式依次构建字符w
i
(1≤i≤n)对应的实体词语序列(1≤i≤n)对应的实体词语序列其中W
i,j
表示网络安全领域词典中包含字符w
i
的实体词语,N
i
表示字符w
i
对应的实体词语个数,记实体词语序列W
i
的长度矩阵为L
i
,位置矩阵为P
i

[0014]3)利用Word2Vec词嵌入方法将步骤2)中实体词语序列转化为对应的实体词语向量序列其中V
i,j
表示实体词语W
i,j
经过词嵌入后对应的词向量;
[0015]4)依次拼接实体词语向量序列与长度矩阵L
i
和位置矩阵P
i
,得到的拼接矩阵V

i
,然后通过计算字符对应的拼接矩阵之间的相似度构建辅助向量矩阵T;
[0016]5)标签预测:利用构建的辅助向量矩阵T,结合BERT

BiLSTM

CRF模型对输入文本
进行标签预测。
[0017]一种采用上述方法的基于辅助向量的网络安全领域命名实体识别系统,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于辅助向量的网络安全领域命名实体识别方法,其步骤包括:将输入文本按字符进行划分;依据词典非完全匹配方式依次构建划分后的每个字符对应的实体词语序列,并计算实体词语序列的长度矩阵和位置矩阵;利用Word2Vec词嵌入方法将实体词语序列转化为对应的实体词语向量序列;依次拼接实体词语向量序列与长度矩阵和位置矩阵,得到拼接矩阵,然后通过计算字符对应的拼接矩阵之间的相似度构建辅助向量矩阵;利用构建的辅助向量矩阵,结合BERT

BiLSTM

CRF模型对输入文本进行标签预测。2.根据权利要求1所述的方法,其特征在于,所述将输入文本按字符进行划分,包括:将模型的输入文本S按字符划分成如下形式:S={w1,w2,w3,...,w
n
},其中w
i
表示每一个字符,1≤i≤n,n表示输入文本S的长度。3.根据权利要求2所述的方法,其特征在于,所述依据词典非完全匹配方式依次构建划分后的每个字符对应的实体词语序列,包括:对于输入文本S={w1,w2,w3,...,w
n
}中的每个字符w
i
,在网络安全领域词典Dic中查找所有包含字符w
i
的实体词语,如果实体词语包含该字符,即匹配成功,将匹配成功的实体词语添加到字符的实体词语序列中,最终构建字符w
i
对应的实体词语序列W
i
:其中表示网络安全领域词典中包含字符w
i
的实体词语,1≤j
i
≤N
i
,N
i
表示字符w
i
对应的实体词语个数。4.根据权利要求3所述的方法,其特征在于,通过以下步骤构建所述辅助向量矩阵:输入文本S={w1,w2,w3,...,w
n
}中字符w
i
‑1,w
i
,w
i+1
通过词典非完全匹配后得到对应的实体词语序列W
i
‑1,W
i
,W
i+1
;利用Word2Vec词嵌入方法将W
i
‑1,W
i
,W
i+1
转化为q维词向量表示,得到对应的词向量矩阵V
i
‑1,V
i
和V
i+1
;将词向量矩阵依次与词语长度矩阵L
i
和位置矩阵P
i
进行拼接,得到的拼接矩阵V

i
‑1,V

i
,V

i+1
;计算拼接矩阵V

i
分别与V...

【专利技术属性】
技术研发人员:杨姗姗彭媛媛张海霞连一峰黄克振
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1