安全领域实体识别方法、装置及电子设备制造方法及图纸

技术编号：32032788 阅读：17 留言：0更新日期：2022-01-27 13:12

本申请实施例提出了一种安全领域实体识别方法、装置及电子设备，通过训练相应的文本修正模型，一方面，在实体识别的过程中，基于文本修正模型对威胁情报文本作出的修正处理，确保了威胁情报文本的信息完整性及精确性，从而有效提高了实体识别的准确率，另一方面，在多任务实体识别模型的训练过程中，通过文本修正模型在每次多任务实体识别模型训练时，针对第二训练数据进行的相应修正处理，提高了每次训练语料的完整性及精确性，从而提高了多任务实体识别模型的识别准确度，并使得安全领域实体识别的准确率得到显著提高。识别的准确率得到显著提高。识别的准确率得到显著提高。

全部详细技术资料下载

【技术实现步骤摘要】
安全领域实体识别方法、装置及电子设备

[0001]本专利技术涉及信息安全领域，尤其涉及一种安全领域实体识别方法、装置及电子设备。

技术介绍

[0002]随着网络环境日趋复杂，网络攻击事件日益增多，为应对这些网络攻击事件，相关部门发布了大量的网络威胁情报，通过对这些实时发布的威胁情报进行分析、整理，有助于提前了解相关安全系统的各方面漏洞以及追踪漏洞线索等，从而确保网络空间的安全性。
[0003]为了从海量的网络威胁情报中抽取出安全系统可读的结构化安全信息，需要应用实体识别技术(Entity Recognition，ER)、图谱可视化技术、知识推理技术等，其中，实体识别技术是一种对非结构化文本中记录的特定实体数据进行分析、识别的信息提取技术，旨在获取网络威胁情报中被记录的威胁实体，如，攻击者、攻击模式、IP、域名等。
[0004]相关技术中，常常基于机器学习的方法，针对特定的网络威胁情报文本进行分词、分句等操作，从而获得大量的实体训练数据，再根据大量的实体训练数据，对预设的实体识别模型进行迭代训练，从而基于训练完成的实体识别模型，从待识别的威胁情报文本中提取出相应的实体数据。
[0005]然而，网络威胁情报文本具有结构多变的特点，在一些特殊情况下，针对网络威胁情报文本进行分词、分句后，获得的实体训练数据中，可能会出现无效字符、无效拼接等情况，导致这种方式下，训练得到的实体识别模型的识别准确度较低。

技术实现思路

[0006]本申请实施例提供一种安全领域实体识别方法、装置、电子设备及...

【技术保护点】

【技术特征摘要】
1.一种安全领域实体识别方法，其特征在于，包括：获取待处理的威胁情报文本，并基于预设的文本修正模型，对所述威胁情报文本进行文本特征提取，获得所述威胁情报文本的文本特征；基于获得的所述文本特征，从所述威胁情报文本中，确定相应的目标待修正字符；对所述目标待修正字符进行修正处理，获得相应的修正情报文本；利用预设的多任务实体识别模型，对所述修正情报文本进行实体识别，获得相应的实体识别结果。2.如权利要求1所述的方法，其特征在于，所述获取待处理的威胁情报文本之前，还包括：获取携带修正标注的第一训练数据，其中，所述修正标注至少包括：文本修正标注及字符修正标注；基于预设的词典库及扩充规则库，对所述携带修正标注的第一训练数据进行数据扩充，获得相应的携带修正标注第一训练扩充数据；采用所述第一扩充训练数据对所述文本修正模型进行训练，直至达到第一训练结束条件。3.如权利要求2所述的方法，其特征在于，所述获取携带修正标注的第一训练数据，包括：获取非结构化的威胁情报数据；基于预设的情报解析算法，对所述非结构化的威胁情报数据进行文本解析，获得相应的情报文本数据；基于预设的清洗规则，对所述情报文本数据进行数据清洗，并对清洗后的所述情报文本数据进行分词、分句处理，获得相应的第一训练数据；基于预设的标注规则库，对所述第一训练数据中包含的指定实体词进行修正标注，获得携带修正标注的第一训练数据，其中，所述修正标注至少包括：文本修正标注及修正类型标注。4.如权利要求1、2或3所述的方法，其特征在于，所述获取待处理的威胁情报文本之前，还包括：获取针对所述多任务实体识别模型的第二训练数据；利用训练结束的所述文本修正模型，对所述第二训练数据进行修正处理，获得修正后的第二训练数据；基于预设的词典库及实体规则库，对所述修正后的第二训练数据进行实体标注，获得相应的携带实体标注的第二训练数据，其中，所述实体标注包括：实体位置标注及实体类型标注；采用所述携带实体标注的第二训练数据对所述多任务实体识别模型进行训练，直至达到第二训练结束条件。5.如权利要求4所述的方法，其特征在于，所述采用所述携带实体标注的第二训练数据对所述多任务实体识别模型进行训练，直至达到第二训练结束条件之后，还包括：获取未携带实体标注的第二训练数据；利用所述多任务实体识别模型，对所述第二训练数据进行实体预测，获得相应的实体
预测结果，其中，所述实体预测结果包含至少一个实体词及...

【专利技术属性】
技术研发人员：顾杜娟，周娟，袁军，章瑞康，李文瑾，叶晓虎，
申请(专利权)人：北京神州绿盟科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人