威胁情报中指定技术的识别方法及装置、电子设备、存储介质制造方法及图纸

技术编号:36558993 阅读:16 留言:0更新日期:2023-02-04 17:14
本申请提供一种威胁情报中指定技术的识别方法及装置、电子设备、存储介质,包括:对网络威胁情报进行预处理,得到网络威胁情报中每一段落对应的词语序列;为词语序列添加词语掩码后,输入已训练的完形填空模型,获得完形填空模型输出的对应于词语掩码的预测词语;将词语序列输入至已训练的技术分类模型,获得技术分类模型输出的多种预测类别以及每一预测类别对应的置信度,并选择置信度靠前的若干种预测类别,作为段落对应的目标预测类别;针对每一段落,判断是否存在段落对应的任一目标预测类别,包括段落对应的预测词语;根据每一段落对应的判断结果,确定段落是否包括指定技术。本申请能够从网络威胁情报中准确识别出描述指定技术的内容。指定技术的内容。指定技术的内容。

【技术实现步骤摘要】
威胁情报中指定技术的识别方法及装置、电子设备、存储介质


[0001]本申请涉及网络安全
,特别涉及一种威胁情报中指定技术的识别方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]威胁情报被定义为“基于证据的知识,包括背景、机制、指标、影响和可采取行为的建议,这些知识与现有或新出现的威胁或资产危害有关,可用于告知决策主体对该威胁或危害的反应”。网络安全领域的威胁情报,或网络威胁情报,能够及时提供相关信息,如攻击的特征,有助于减少识别潜在安全漏洞和攻击的不确定性。个人或企业可以从社交媒体(例如,博客)、供应商(Microsoft、Cisco等)公告、黑客论坛等渠道获取网络威胁情报。
[0003]然而,网络威胁情报的格式并不固定,对于所涉及的技术可能有标准的标识,也不可能仅有描述性说明而欠缺标准的标识。例如:对于“Sudo and Sudo Caching”技术,网络威胁情报中可能有直接说出技术名称的表示形式“T1548.003 Sudo and Sudo Caching”,也有使用文本进行描述的表示形式“Adversaries may perform sudo caching and/or use the sudoers file to elevate privileges.Adversaries may do this to execute commands as other users or spawn processes with higher privileges”。
[0004]对于网络威胁情报的使用者(个人或企业)而言,可能存在部分需要特别关注的技术,以借助这些技术提高抵御网络威胁的能力。因此,亟需一种能够从网络威胁情报中准确识别指定技术的方案。

技术实现思路

[0005]本申请实施例的目的在于提供一种威胁情报中指定技术的识别方法及装置、电子设备、计算机可读存储介质,用于从网络威胁情报中准确识别出有关指定技术的内容。
[0006]一方面,本申请提供了一种威胁情报中指定技术的识别方法,包括:
[0007]对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列;
[0008]针对每一段落对应的词语序列,为所述词语序列添加词语掩码后,输入已训练的完形填空模型,获得所述完形填空模型输出的对应于所述词语掩码的预测词语;
[0009]针对每一段落对应的词语序列,将所述词语序列输入至已训练的技术分类模型,获得所述技术分类模型输出的多种预测类别以及每一预测类别对应的置信度,并选择置信度靠前的若干种预测类别,作为所述段落对应的目标预测类别;其中,每一预测类别指示一种属于指定技术的技术名称;
[0010]针对每一段落,判断是否存在所述段落对应的任一目标预测类别,包括所述段落对应的预测词语;
[0011]根据每一段落对应的判断结果,确定所述段落是否包括指定技术。
[0012]通过上述措施,将网络威胁情报拆分出多个段落后,借助完形填空模型和技术分
类模型针对各个段落分别进行指定技术的识别,从而准确识别出存在指定技术相关内容的段落。
[0013]在一实施例中,在所述对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列之前,所述方法还包括:
[0014]对所述网络威胁情报,以所述指定技术下多个技术名称进行正则匹配,判断能否匹配到任一技术名称;
[0015]如果匹配到任一技术名称,确定所述网络威胁情报包括所述指定技术;
[0016]如果无法匹配到任一技术名称,继续执行所述对网络威胁情报进行预处理的步骤。
[0017]通过上述措施,可以在网络威胁情报包含指定技术下的技术名称的情况下,快速识别出网络威胁情报中的指定技术,从而降低了识别任务的工作量。
[0018]在一实施例中,所述对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列,包括:
[0019]将所述网络威胁情报划分为若干段落;
[0020]针对每一段落进行分词,并从分词结果中滤除停用词和无效词;
[0021]针对每一段落,对经过滤除处理的分词结果,进行词干提取,得到所述段落对应的词语序列。
[0022]通过上述措施,可以将网络威胁情报处理为若干段落对应的词语序列。
[0023]在一实施例中,所述完形填空模型通过如下方式训练得到:
[0024]针对样本数据集中的样本语料,以词语掩码替换所述样本语料中的至少一个词语,得到指定样本语料;
[0025]将所述指定样本语料输入预训练模型,获得所述指定样本语料中词语掩码对应的样本预测结果;
[0026]根据所述指定样本语料中词语掩码对应的样本预测结果和被替换词语,对所述预训练模型的模型参数进行调整,得到完形填空模型。
[0027]通过上述措施,可以训练得到完形填空模型。
[0028]在一实施例中,所述样本语料包括技术名称和技术描述;
[0029]所述以词语掩码替换所述样本语料中的至少一个词语,包括:
[0030]从所述样本语料所包含的技术名称中选择一个词语,替换为词语掩码;和/或,
[0031]从所述样本语料所包含的技术描述中选择所述指定技术的一个相关词语,替换为词语掩码;和/或,
[0032]随机选择所述样本语料中的至少一个词语,替换为词语掩码。
[0033]通过上述措施,可以将样本语料处理为指定样本语料。
[0034]在一实施例中,所述技术分类模型通过如下方式训练得到:
[0035]将样本数据集中样本语料所包括的技术描述,输入至分类模型,获得所述分类模型输出的样本预测类别;
[0036]根据所述样本语料的样本预测类别与所述样本语料所包含的技术名称之间的差异,调整所述分类模型的模型参数,得到技术分类模型。
[0037]通过上述措施,可以训练得到技术分类模型。
[0038]在一实施例中,所述根据每一段落对应的判断结果,确定所述段落是否包括指定技术,包括:
[0039]如果任一段落对应的判断结果,指示存在包括预测词语的目标预测类别,确定所述段落包括指定技术;
[0040]如果任一段落对应的判断结果,指示不存在包括预测词语的目标预测类别,确定所述段落不包括指定技术。
[0041]通过上述措施,可以从网络威胁情报中识别出若干包含指定技术的段落。
[0042]另一方面,本申请还包括一种威胁情报中指定技术的识别装置,包括:
[0043]预处理模块,用于对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列;
[0044]第一预测模块,用于针对每一段落对应的词语序列,为所述词语序列添加词语掩码后,输入已训练的完形填空模型,获得所述完形填空模型输出的对应于所述词语掩码的预测词语;
[0045]第二预测模块,用于针对每一段落对应的词语序列,将所述词语序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种威胁情报中指定技术的识别方法,其特征在于,包括:对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列;针对每一段落对应的词语序列,为所述词语序列添加词语掩码后,输入已训练的完形填空模型,获得所述完形填空模型输出的对应于所述词语掩码的预测词语;针对每一段落对应的词语序列,将所述词语序列输入至已训练的技术分类模型,获得所述技术分类模型输出的多种预测类别以及每一预测类别对应的置信度,并选择置信度靠前的若干种预测类别,作为所述段落对应的目标预测类别;其中,每一预测类别指示一种属于指定技术的技术名称;针对每一段落,判断是否存在所述段落对应的任一目标预测类别,包括所述段落对应的预测词语;根据每一段落对应的判断结果,确定所述段落是否包括指定技术。2.根据权利要求1所述的方法,其特征在于,在所述对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列之前,所述方法还包括:对所述网络威胁情报,以所述指定技术下多个技术名称进行正则匹配,判断能否匹配到任一技术名称;如果匹配到任一技术名称,确定所述网络威胁情报包括所述指定技术;如果无法匹配到任一技术名称,继续执行所述对网络威胁情报进行预处理的步骤。3.根据权利要求1所述的方法,其特征在于,所述对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列,包括:将所述网络威胁情报划分为若干段落;针对每一段落进行分词,并从分词结果中滤除停用词和无效词;针对每一段落,对经过滤除处理的分词结果,进行词干提取,得到所述段落对应的词语序列。4.根据权利要求1所述的方法,其特征在于,所述完形填空模型通过如下方式训练得到:针对样本数据集中的样本语料,以词语掩码替换所述样本语料中的至少一个词语,得到指定样本语料;将所述指定样本语料输入预训练模型,获得所述指定样本语料中词语掩码对应的样本预测结果;根据所述指定样本语料中词语掩码对应的样本预测结果和被替换词语,对所述预训练模型的模型参数进行调整,得到完形填空模型。5.根据权利要求4所述的方法,其特征在于,所述样本语料包括技术名称和技术描述;所述以词语掩码替换所述样本语料中的至少一个词语,包括:从所述样本语料所包含的技术名称中选择一个词语,替换为词语掩码;和/或...

【专利技术属性】
技术研发人员:贾蓉
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1