一种命名实体识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39058991 阅读:19 留言:0更新日期:2023-10-12 19:52
本申请实施例提供一种命名实体识别方法、装置、电子设备及存储介质,涉及网络安全技术领域。该方法包括获得网络安全领域的非结构化文本;将所述非结构化文本输入已训练的命名实体识别模型,得到所述非结构化文本中的网络安全实体;其中,所述命名实体识别模型是利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据进行人工标注,得到的标注数据进行训练得到的。该方法利用主动学习策略,同时考虑数据的不确定性和多样性,从未标注数据中选择信息量丰富且全面的数据,从而以较低的标注样本实现较高的模型性能,解决了现有方法没有同时考虑数据的不确定性和多样性,导致采样偏差,提高了数据标注成本的问题。提高了数据标注成本的问题。提高了数据标注成本的问题。

【技术实现步骤摘要】
一种命名实体识别方法、装置、电子设备及存储介质


[0001]本申请涉及网络安全
,具体而言,涉及一种命名实体识别方法、装置、电子设备及存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)作为自然语言处理任务中的关键技术,在很多领域起着至关重要的作用,如知识图谱构建、机器翻译、信息检索、问答系统等。随着网络攻击事件的增多,互联网中产生了越来越多的网络安全数据,如博客、论坛、数据库等。这些数据中包含大量有价值的信息。NER技术可以从这些网络安全数据中自动抽取安全研究人员关注的网络安全实体,丰富网络安全知识,从中发现新的威胁、病毒、漏洞等,并及时采取有效措施。
[0003]现有的网络安全领域的命名实体识别方法,获得未标注数据时,没有同时考虑数据的不确定性和多样性,导致采样偏差,提高了数据标注成本。

技术实现思路

[0004]本申请实施例的目的在于提供一种命名实体识别方法、装置、电子设备及存储介质,利用主动学习策略,同时考虑数据的不确定性和多样性,从未标注数据中选择信息量丰富且全面的数据,从而以较低的标注样本实现较高的模型性能,解决了现有方法没有同时考虑数据的不确定性和多样性,导致采样偏差,提高了数据标注成本的问题。
[0005]本申请实施例提供了一种获得网络安全领域的非结构化文本;
[0006]将所述非结构化文本输入已训练的命名实体识别模型,得到所述非结构化文本中的网络安全实体;其中,所述命名实体识别模型是利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据进行人工标注,得到的标注数据进行训练得到的。
[0007]在上述实现过程中,利用基于进化算法的主动学习策略从未标注数据中选择最优未标注数据,最优未标注数据同时考虑数据的不确定性和多样性,从未标注数据中选择信息量丰富(不确定性大)且全面(多样性大)的数据,从而以较低的标注样本实现较高的模型性能,解决了现有方法没有同时考虑数据的不确定性和多样性,导致采样偏差,提高了数据标注成本的问题。
[0008]进一步地,利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据进行人工标注,得到标注数据,用于进行命名实体识别模型训练,包括:
[0009]将随机挑选的多条数据进行人工标注并将标注后的数据存至标注数据池中;
[0010]利用所述标注数据池中的标注数据对命名实体识别模型进行训练;
[0011]利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据,并再次人工标注和存储至标注数据池中;
[0012]重复对命名实体识别模型进行训练以及利用基于进化算法的主动学习进行最优未标注数据选择并进行人工标注的步骤,直至标注数据池中的标注数据的数量达到预设阈
值;
[0013]利用标注数据池中的标注数据对所述命名实体识别模型进行训练,得到最终的命名实体识别模型。
[0014]在上述实现过程中,利用基于进化算法的主动学习选择最优未标注数据,从而达到降低数据标注的成本,以较小的标注数据达到较好的模型效果。
[0015]进一步地,所述利用所述标注数据池中的标注数据对命名实体识别模型进行训练,包括:
[0016]利用所述标注数据对Roberta

BiLSTM

CRF框架进行训练,以得到命名实体识别模型,其中,Roberta,用于将所述非结构化文本转化为语义向量;BiLSTM,用于对文本的上下文信息进行双向建模;CRF,用于学习标签之间的转移概率。
[0017]在上述实现过程中,利用Roberta

BiLSTM

CRF模型进行训练,从而得到全局最优的标签序列,标签即为文本中每一个词所对应的实体类别。
[0018]进一步地,所述利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据,包括:
[0019]随机从未标注数据池中选择多个个体,构成初始化种群,所述初始化种群中个体的数量为POP,每个个体包含n个句子:L={l1,l2,...,l
n
};
[0020]对所述初始化种群中的每个个体进行实数编码;
[0021]利用交叉算子在所述个体之间进行交叉操作,以生成新个体并放入所述初始化种群中;
[0022]利用多项式突变算子对所述个体进行变异操作,以生成新个体并放入所述初始化种群中;
[0023]对所述初始化种群中的每个个体进行适应度计算,并利用二元锦标赛选择法基于计算结果对所述初始化种群中的个体进行选择,选择POP个个体构成新种群;
[0024]重复进行上述交叉操作、变异操作以及个体选择操作,对所述新种群进行更新,直至达到预设最大迭代次数;
[0025]利用进化算法获得最终种群的Pareto最优解,若所述Pareto最优解有多个,则选出不确定分数和多样性分数之和最高的最优解;
[0026]对所述最优解进行解码,映射到所述未标注数据池中对应的最优未标注数据。
[0027]在上述实现过程中,能够在不确定性原则和多样性原则之间进行平衡,使得不确定性和多样性尽可能均达到最优化,从未标注数据中选择信息量大且全面的未标注数据。
[0028]进一步地,所述对所述种群中的每个个体进行适应度计算,包括:
[0029]将每个个体输入至所述命名实体识别模型中进行分类,获得每个句子l中每一个词w被标注为类别的概率;
[0030]基于所述概率计算每一个句子的信息熵:
[0031][0032]基于所述信息熵计算所述个体的不确定性分数:
[0033][0034]其中,所述个体表示为L={l1,l2,...,l
n
};
[0035]将所述个体输入至Sentence

BERT模型中,得到每个句子l的向量表示V
l

[0036]基于所述向量表示计算所述个体的多样性分数:
[0037][0038]其中,μ表示所述个体的平均向量;cos(V
l
,μ)表示V
l
和μ之间的余弦相似度。
[0039]在上述实现过程中,利用信息熵计算不确定性分数,余弦相似度计算多样性分数。
[0040]本申请实施例还提供一种命名实体识别装置,所述装置包括:
[0041]数据获取模块,用于获得网络安全领域的非结构化文本;
[0042]识别模块,用于将所述非结构化文本输入已训练的命名实体识别模型,得到所述非结构化文本中的网络安全实体;其中,所述命名实体识别模型是利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据进行人工标注,得到的标注数据进行训练得到的。
[0043]在上述实现过程中,利用基于进化算法的主动学习策略从未标注数据中选择最优未标注数据,最优未标注数据同时考虑数据的不确定性和多样性,从未标注数据中选择信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法包括:获得网络安全领域的非结构化文本;将所述非结构化文本输入已训练的命名实体识别模型,得到所述非结构化文本中的网络安全实体;其中,所述命名实体识别模型是利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据进行人工标注,得到的标注数据进行训练得到的。2.根据权利要求1所述的命名实体识别方法,其特征在于,利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据进行人工标注,得到标注数据,用于进行命名实体识别模型训练,包括:将随机挑选的多条数据进行人工标注并将标注后的数据存至标注数据池中;利用所述标注数据池中的标注数据对命名实体识别模型进行训练;利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据,并再次人工标注和存储至标注数据池中;重复对命名实体识别模型进行训练以及利用基于进化算法的主动学习进行最优未标注数据选择并进行人工标注的步骤,直至标注数据池中的标注数据的数量达到预设阈值;利用标注数据池中的标注数据对所述命名实体识别模型进行训练,得到最终的命名实体识别模型。3.根据权利要求2所述的命名实体识别方法,其特征在于,所述利用所述标注数据池中的标注数据对命名实体识别模型进行训练,包括:利用所述标注数据对Roberta

BiLSTM

CRF框架进行训练,以得到命名实体识别模型,其中,Roberta,用于将所述非结构化文本转化为语义向量;BiLSTM,用于对文本的上下文信息进行双向建模;CRF,用于学习标签之间的转移概率。4.根据权利要求1所述的命名实体识别方法,其特征在于,所述利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据,包括:随机从未标注数据池中选择多个个体,构成初始化种群,所述初始化种群中个体的数量为POP,每个个体L包含n个句子:L={l1,l2,...,l
n
};对所述初始化种群中的每个个体进行实数编码;利用交叉算子在所述个体之间进行交叉操作,以生成新个体并放入所述初始化种群中;利用多项式突变算子对所述个体进行变异操作,以生成新个体并放入所述初始化种群中;对所述初始化种群中的每个个体进行适应度计算,并利用二元锦标赛选择法基于计算结果对所述初始化种群中的个体进行选择,选择POP个个体构成新种群;重复进行上述交叉操作、变异操作以及个体选择操作,对所述新种群进行更新,直至达到预设最大迭代次数;利用进化算法获得最终种群的Pareto最优解,若所述Pareto最优解有多个,则选出不确定分数和多样性分数之和最高的最优解;对所述最优解进行解码,映射到所述未标注数据池中对应的最优未标注数据。5.根据权利要求4所述的命名实体识别方法,其特征在于,所述对所述种群中的每个个体进行适应度计算,包...

【专利技术属性】
技术研发人员:李娇
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1