安全领域实体识别方法、装置及电子设备制造方法及图纸

技术编号:32032788 阅读:17 留言:0更新日期:2022-01-27 13:12
本申请实施例提出了一种安全领域实体识别方法、装置及电子设备,通过训练相应的文本修正模型,一方面,在实体识别的过程中,基于文本修正模型对威胁情报文本作出的修正处理,确保了威胁情报文本的信息完整性及精确性,从而有效提高了实体识别的准确率,另一方面,在多任务实体识别模型的训练过程中,通过文本修正模型在每次多任务实体识别模型训练时,针对第二训练数据进行的相应修正处理,提高了每次训练语料的完整性及精确性,从而提高了多任务实体识别模型的识别准确度,并使得安全领域实体识别的准确率得到显著提高。识别的准确率得到显著提高。识别的准确率得到显著提高。

【技术实现步骤摘要】
安全领域实体识别方法、装置及电子设备


[0001]本专利技术涉及信息安全领域,尤其涉及一种安全领域实体识别方法、装置及电子设备。

技术介绍

[0002]随着网络环境日趋复杂,网络攻击事件日益增多,为应对这些网络攻击事件,相关部门发布了大量的网络威胁情报,通过对这些实时发布的威胁情报进行分析、整理,有助于提前了解相关安全系统的各方面漏洞以及追踪漏洞线索等,从而确保网络空间的安全性。
[0003]为了从海量的网络威胁情报中抽取出安全系统可读的结构化安全信息,需要应用实体识别技术(Entity Recognition,ER)、图谱可视化技术、知识推理技术等,其中,实体识别技术是一种对非结构化文本中记录的特定实体数据进行分析、识别的信息提取技术,旨在获取网络威胁情报中被记录的威胁实体,如,攻击者、攻击模式、IP、域名等。
[0004]相关技术中,常常基于机器学习的方法,针对特定的网络威胁情报文本进行分词、分句等操作,从而获得大量的实体训练数据,再根据大量的实体训练数据,对预设的实体识别模型进行迭代训练,从而基于训练完成的实体识别模型,从待识别的威胁情报文本中提取出相应的实体数据。
[0005]然而,网络威胁情报文本具有结构多变的特点,在一些特殊情况下,针对网络威胁情报文本进行分词、分句后,获得的实体训练数据中,可能会出现无效字符、无效拼接等情况,导致这种方式下,训练得到的实体识别模型的识别准确度较低。

技术实现思路

[0006]本申请实施例提供一种安全领域实体识别方法、装置、电子设备及存储介质,用于提高安全领域实体识别的准确率。
[0007]第一方面,本申请实施例提供了一种安全领域实体识别方法,包括:
[0008]获取待处理的威胁情报文本,并基于预设的文本修正模型,对威胁情报文本进行文本特征提取,获得威胁情报文本的文本特征。
[0009]基于获得的文本特征,从威胁情报文本中,确定相应的目标待修正字符。
[0010]对目标待修正字符进行修正处理,获得相应的修正情报文本。
[0011]利用预设的多任务实体识别模型,对修正情报文本进行实体识别,获得相应的实体识别结果。
[0012]第二方面,本申请实施例还提供了一种安全领域实体识别装置,包括:
[0013]获取模块,用于获取待处理的威胁情报文本,并基于预设的文本修正模型,对威胁情报文本进行文本特征提取,获得威胁情报文本的文本特征。
[0014]确定模块,用于基于获得的文本特征,从威胁情报文本中,确定相应的目标待修正字符。
[0015]修正模块,用于对目标待修正字符进行修正处理,获得相应的修正情报文本。
[0016]实体识别模块,用于利用预设的多任务实体识别模型,对修正情报文本进行实体识别,获得相应的实体识别结果。
[0017]在一种可选的实施例中,在获取待处理的威胁情报文本之前,获取模块还用于:
[0018]获取携带修正标注的第一训练数据,其中,修正标注至少包括:文本修正标注及修正类型标注。
[0019]基于预设的词典库及扩充规则库,对携带修正标注的第一训练数据进行数据扩充,获得相应的携带修正标注第一训练扩充数据。
[0020]采用第一扩充训练数据对文本修正模型进行训练,直至达到第一训练结束条件。
[0021]在一种可选的实施例中,在获取携带修正标注的第一训练数据时,获取模块具体用于:
[0022]获取非结构化的威胁情报数据。
[0023]基于预设的情报解析算法,对非结构化的威胁情报数据进行文本解析,获得相应的情报文本数据。
[0024]基于预设的清洗规则,对情报文本数据进行数据清洗,并对清洗后的情报文本数据进行分词、分句处理,获得相应的第一训练数据。
[0025]基于预设的标注规则库,对第一训练数据中包含的指定实体词进行修正标注,获得携带修正标注的第一训练数据,其中,修正标注至少包括:文本修正标注及修正类型标注。
[0026]在一种可选的实施例中,在获取待处理的威胁情报文本之前,获取模块还用于:
[0027]获取针对多任务实体识别模型的第二训练数据。
[0028]利用训练结束的文本修正模型,对第二训练数据进行修正处理,获得修正后的第二训练数据。
[0029]基于预设的词典库及实体规则库,对修正后的第二训练数据进行实体标注,获得相应的携带实体标注的第二训练数据,其中,实体标注包括:实体位置标注及实体类型标注。
[0030]采用携带实体标注的第二训练数据对多任务实体识别模型进行训练,直至达到第二训练结束条件。
[0031]在一种可选的实施例中,在采用携带实体标注的第二训练数据对多任务实体识别模型进行训练,直至达到第二训练结束条件之后,获取模块还用于:
[0032]获取未携带实体标注的第二训练数据。
[0033]利用多任务实体识别模型,对第二训练数据进行实体预测,获得相应的实体预测结果,其中,实体预测结果包含至少一个实体词及每个实体词相应的置信度分值。
[0034]基于预设的词典库及实体规则库,对获得的实体预测结果进行修正,获得相应的修正实体预测结果。
[0035]基于修正实体预测结果,对未携带实体标注的第二训练数据进行实体标注,获得新增携带实体标注的第二训练数据。
[0036]采用新增携带实体标注的第二训练数据继续对多任务实体识别模型进行训练,直至达到第三训练结束条件。
[0037]在一种可选的实施例中,修正实体预测结果包含至少一个与预设的词典库及实体
规则库匹配的候选实体词,以及每个候选实体词相应的置信度分值,则在基于修正实体预测结果,对未携带实体标注的第二训练数据进行实体标注时,获取模块具体用于:
[0038]基于预设的目标置信度分值阈值,选取相应数目的候选实体词作为目标实体词。
[0039]根据获得的各个目标实体词,对未携带实体标注的第二训练数据进行实体标注。
[0040]在一种可选的实施例中,在基于预设的词典库及实体规则库,对获得的实体预测结果进行修正,获得相应的修正实体预测结果之后,获取模块还用于:
[0041]基于预设的词典库及实体规则库,对多任务实体识别模型获得的实体预测结果进行筛选,获得相应的至少一个未记录实体词及每个未记录实体词对应的置信度分值。
[0042]基于预设的补充置信度分值阈值,选取相应数目的未记录实体值作为补充实体词,并根据获得的各个补充实体词,对词典库及实体规则库进行更新。
[0043]在一种可选的实施例中,在利用预设的多任务实体识别模型,对修正情报文本进行实体识别,获得相应的实体识别结果之后,实体识别模块还用于:
[0044]基于预设的词典库及实体规则库,对获得的实体识别结果进行修正,获得相应的目标实体识别结果。
[0045]第三方面,本申请实施例还提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种安全领域实体识别方法,其特征在于,包括:获取待处理的威胁情报文本,并基于预设的文本修正模型,对所述威胁情报文本进行文本特征提取,获得所述威胁情报文本的文本特征;基于获得的所述文本特征,从所述威胁情报文本中,确定相应的目标待修正字符;对所述目标待修正字符进行修正处理,获得相应的修正情报文本;利用预设的多任务实体识别模型,对所述修正情报文本进行实体识别,获得相应的实体识别结果。2.如权利要求1所述的方法,其特征在于,所述获取待处理的威胁情报文本之前,还包括:获取携带修正标注的第一训练数据,其中,所述修正标注至少包括:文本修正标注及字符修正标注;基于预设的词典库及扩充规则库,对所述携带修正标注的第一训练数据进行数据扩充,获得相应的携带修正标注第一训练扩充数据;采用所述第一扩充训练数据对所述文本修正模型进行训练,直至达到第一训练结束条件。3.如权利要求2所述的方法,其特征在于,所述获取携带修正标注的第一训练数据,包括:获取非结构化的威胁情报数据;基于预设的情报解析算法,对所述非结构化的威胁情报数据进行文本解析,获得相应的情报文本数据;基于预设的清洗规则,对所述情报文本数据进行数据清洗,并对清洗后的所述情报文本数据进行分词、分句处理,获得相应的第一训练数据;基于预设的标注规则库,对所述第一训练数据中包含的指定实体词进行修正标注,获得携带修正标注的第一训练数据,其中,所述修正标注至少包括:文本修正标注及修正类型标注。4.如权利要求1、2或3所述的方法,其特征在于,所述获取待处理的威胁情报文本之前,还包括:获取针对所述多任务实体识别模型的第二训练数据;利用训练结束的所述文本修正模型,对所述第二训练数据进行修正处理,获得修正后的第二训练数据;基于预设的词典库及实体规则库,对所述修正后的第二训练数据进行实体标注,获得相应的携带实体标注的第二训练数据,其中,所述实体标注包括:实体位置标注及实体类型标注;采用所述携带实体标注的第二训练数据对所述多任务实体识别模型进行训练,直至达到第二训练结束条件。5.如权利要求4所述的方法,其特征在于,所述采用所述携带实体标注的第二训练数据对所述多任务实体识别模型进行训练,直至达到第二训练结束条件之后,还包括:获取未携带实体标注的第二训练数据;利用所述多任务实体识别模型,对所述第二训练数据进行实体预测,获得相应的实体
预测结果,其中,所述实体预测结果包含至少一个实体词及...

【专利技术属性】
技术研发人员:顾杜娟周娟袁军章瑞康李文瑾叶晓虎
申请(专利权)人:北京神州绿盟科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1