【技术实现步骤摘要】
一种安全实体的检测方法、装置、电子设备及存储介质
[0001]本申请涉及网络安全
,具体而言,涉及一种安全实体的检测方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]命名实体识别(NER)在网络安全领域非常重要。它帮助研究人员从非结构化文本源中提取网络威胁信息,提取的网络实体或关键表达可用于对开源文本中描述的网络攻击进行建模。已经发布了大量在文本分析中运行良好的通用NER模型在用于网络安全领域时效果不佳。虽然预先训练的上下文嵌入如Bert等语言模型显著提高了命名实体识别模型的准确性,然而在网络安全领域可用的开源文本在句子的复杂性和底层结构方面差异很大,所以在使用Bert等语言模型时先在安全领域数据集中进行语言模型的训练,再进行下游任务的微调往往等达到一个更好的效果。但是在注释安全领域数据集时面临着巨大的挑战,不仅需要大量的时间,而且对注释人员的知识需求要求较高。现有的语言模型知识库中的实体的数量较少,导致训练效果不好。
技术实现思路
[0003]本申请实施例的目的在于提供一种安全实体的检 ...
【技术保护点】
【技术特征摘要】
1.一种安全实体的检测方法,其特征在于,包括:通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库;根据所述扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型;根据所述训练后的第二命名实体识别模型对安全实体进行检测。2.根据权利要求1所述的安全实体的检测方法,其特征在于,所述通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库的步骤,包括:获取所述预先训练的第一命名实体识别模型和第一训练集;屏蔽所述第一训练集中的已进行人工标记的实体,得到屏蔽后的第一训练集;将所述屏蔽后的第一训练集输入所述第一命名实体识别模型和多个分类层,得到弱实体及其标签;将所述弱实体及其标签加入所述现有知识库,得到所述扩充知识库。3.根据权利要求2所述的安全实体的检测方法,其特征在于,所述根据所述扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型的步骤,包括:获取所述扩充知识库中的弱实体的置信度;根据所述扩充知识库中的弱实体的置信度生成所述第二命名实体识别模型的损失函数,其中,所述损失函数使得所述扩充知识库中的弱实体的置信度增加时,所述第二命名实体识别模型对所述弱实体的拟合程度提升;根据所述损失函数、所述扩充知识库对所述第二命名实体识别模型进行噪声感知训练,得到所述训练后的第二命名实体识别模型。4.根据权利要求3所述的安全实体的检测方法,其特征在于,所述根据所述损失函数、所述扩充知识库对所述第二命名实体识别模型进行噪声感知训练的步骤,包括:获取第二训练集;根据第二所述训练集,利用预设的负采样算法获取负训练样本集合;根据所述负训练样本集合、所述损失函数、所述扩充知识库对所述第二命名实体识别模型进行噪声感知训练,得到所述训练后的第二命名实体识别模型。5.根据权利要求3所述的安全实体的检测方法,其特征在于,所述获取所述扩充知识库中的弱实体的置信度的步骤,包括:获取所述扩充知识库中的所述已进行人工标注的实体和所述弱实体之间的语义距离;根据所述语义距离生成所述扩充知识库中的每个弱实体的置信度。6.根据权利要求5所述的安全实体的...
【专利技术属性】
技术研发人员:姚剑文,潘季明,
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。