一种嵌套安全实体识别模型的训练方法及识别方法技术

技术编号:32965187 阅读:23 留言:0更新日期:2022-04-09 11:20
本发明专利技术公开了一种嵌套安全实体识别模型的训练方法及识别方法,获取包括多条句子样本的样本文本数据,并为各句子样本添加第一标签;基于添加标签后的各句子样本,执行如下步骤进行训练:基于各句子样本利用第一子模型输出该句子样本中包含的第一实体的最大边界和相应的第一边界标识;根据第一子模型输出的各第一实体和相应的第一边界标识,确定该句子样本的候选片段序列集合;基于候选片段序列集合中的各候选片段序列,利用第二子模型对该候选片段序列包含的各实体进行分类;联合调整第一子模型和第二子模型的参数,以完成训练。本公开的方法识别模型训练完成之后,用于嵌套安全实体的识别,尤其适用于对存在嵌套的实体的识别分类。别分类。别分类。

【技术实现步骤摘要】
一种嵌套安全实体识别模型的训练方法及识别方法


[0001]本专利技术涉及网络安全
,尤其涉及一种嵌套安全实体识别模型的训练方法及识别方法。

技术介绍

[0002]命名实体识别(NER)在网络安全领域非常重要。它帮助研究人员从非结构化文本源中提取网络威胁信息,提取的网络实体或关键表达可用于对开源文本中描述的网络攻击进行建模。使用序列标注的模型由于其自身的限制无法解决嵌套实体识别问题,而为了解决嵌套实体识别,使用基于片段序列分类的模型有着高昂的时间复杂度,在实际使用中会限制最大片段序列长度,在一定程度上减小时间复杂度。但限制最大片段序列长度后会无法识别出超过该长度的实体。在安全领域中存在大量的长实体,而且长实体中也会包含一些嵌套实体。
[0003]把命名实体识别问题看作为序列标注问题,一般使用Word2Vec词向量或者预训练语言模型如:Bert作为词嵌入层,顶层为CRF层进行实体分类。最经典的有:Word2Vec+Bilstm+CRF模型。
[0004]对于序列标注问题,由于其模型自身的限制无法解决嵌套实体识别的问题。而对于网本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种嵌套安全实体识别模型的训练方法,其特征在于,包括:获取包括多条句子样本的样本文本数据,并为各句子样本添加第一标签;基于添加标签后的各句子样本,执行如下步骤进行训练:基于各句子样本利用第一子模型输出该句子样本中包含的第一实体的最大边界和相应的第一边界标识,以及在该第一实体具有第二实体的情况下,利用所述第一子模型输出第二实体的分割边界和相应的第二边界标识;根据所述第一子模型输出的各第一实体和相应的第一边界标识,以及在该第一实体具有第二实体的情况下,根据所述第一子模型输出的第二实体和相应的第二边界标识,确定该句子样本的候选片段序列集合;基于所述候选片段序列集合中的各候选片段序列,利用第二子模型对该候选片段序列包含的各实体进行分类;联合调整所述第一子模型和所述第二子模型的参数,以完成训练。2.如权利要求1所述的嵌套安全实体识别模型的训练方法,其特征在于,在获取的数据包含图像数据的情况下,基于所述图像数据提取其中的文本,以得到相应的句子样本。3.如权利要求1所述的嵌套安全实体识别模型的训练方法,其特征在于,所述第一子模型,还被配置为确定该句子样本中非边界的单词的第一标识。4.如权利要求3所述的嵌套安全实体识别模型的训练方法,其特征在于,确定该句子样本的候选片段序列集合包括:对各第一实体:将自身以及对应的第一边界标识加入候选片段序列集合;在该第一实体具有第二实体的情况下,将该第二实体、以及基于相应的第二实体边界标识将位于该第二实体边界标识左右两侧的片段序列均加入候选片段序列集合;在该第一实体具有至少两个第二实体的情况下,则将各第二实体以及各第二实体的组合加入候选片段序列集合。5.如权利要求1所述的嵌套安全实体识别模型的训练方法,其特征在于,利用第二子模型以对该句子样本的各实体进行分类之前...

【专利技术属性】
技术研发人员:潘季明姚剑文
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1