情报分类模型的训练方法及装置、电子设备、存储介质制造方法及图纸

技术编号:35788774 阅读:15 留言:0更新日期:2022-12-01 14:37
本申请提供一种情报分类模型的训练方法及装置、电子设备、存储介质,方法包括:针对数据集中每一网络威胁情报,生成网络威胁情报对应的情报特征向量;根据层次聚类算法,对数据集中多个网络威胁情报对应的情报特征向量进行聚类处理,获得多个类簇;针对每一类簇的情报特征向量对应的网络威胁情报,通过特征抽取算法抽取出若干代表性词汇;输出每一类簇的若干代表性词汇,并响应于标注指令,为类簇的情报特征向量对应的网络威胁情报,添加至少一个特征标签;根据添加特征标签的网络威胁情报,训练分类模型,得到情报分类模型。本申请方案,极大减少了人工逐条标注网络威胁情报的工作量,进而提高了情报分类模型的训练效率,缩短了训练时长。了训练时长。了训练时长。

【技术实现步骤摘要】
情报分类模型的训练方法及装置、电子设备、存储介质


[0001]本申请涉及自然语言处理
,特别涉及一种情报分类模型的训练方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]威胁情报是基于证据的知识,包括背景、机制、指标、影响和可采取行动的建议,这些知识与现有或新出现的威胁或资产危害有关,可用于告知决策主体对该威胁或危害的反应。网络安全领域的威胁情报,及时提供相关信息,如攻击的特征,有助于识别潜在的安全漏洞和攻击的不确定性。
[0003]社交媒体(比如:博客)、供应商(比如:Microsoft、Cisco等)公告、黑客论坛等已成为网络安全信息传播和交流的重要媒介。越来越多与威胁情报相关的帖子在社交媒体上发布,这些帖子通常揭示新的漏洞、恶意软件或攻击策略。
[0004]然而,这些网络威胁情报并未携带领域标签(比如:金融、教育等),使得企业无法从海量的威胁情报中获取自身所关注的网络威胁情报。如果由开发人员人工对网络上发布的威胁情报进行分类,则需要极大的人工成本和时间成本。

技术实现思路

[0005]本申请实施例的目的在于提供一种情报分类模型的训练方法及装置、电子设备、计算机可读存储介质,用于在标注成本较低的情况下,训练得到用于对威胁情报进行分类的情报分类模型。
[0006]一方面,本申请提供了一种情报分类模型的训练方法,包括:
[0007]针对数据集中每一网络威胁情报,生成所述网络威胁情报对应的情报特征向量;
[0008]根据层次聚类算法,对所述数据集中多个网络威胁情报对应的情报特征向量进行聚类处理,获得多个类簇;
[0009]针对每一类簇的情报特征向量对应的网络威胁情报,通过特征抽取算法抽取出若干代表性词汇;
[0010]输出每一类簇的若干代表性词汇,并响应于标注指令,为所述类簇的情报特征向量对应的网络威胁情报,添加至少一个特征标签;
[0011]根据添加特征标签的网络威胁情报,训练分类模型,得到情报分类模型。
[0012]通过上述措施,在聚类后为每一类簇的网络威胁情报输出若干代表性词汇,可以提示开发人员为整个类簇的网络威胁情报选择合适的特征标签,并可响应于标注指令之间为整个类簇的网络威胁情报添加特征标签,极大减少了人工逐条标注网络威胁情报的工作量,进而提高了情报分类模型的训练效率,缩短了训练时长。
[0013]在一实施例中,所述针对数据集中每一网络威胁情报,生成所述网络威胁情报对应的情报特征向量,包括:
[0014]针对每一网络威胁情报,从所述网络威胁情报中确定多个目标词汇;
[0015]根据词向量模型对每一网络威胁情报对应的多个目标词汇进行转换,得到每一目标词汇对应的词向量;
[0016]针对每一网络威胁情报,将所述网络威胁情报对应的多个目标词汇的词向量进行融合处理,得到所述网络威胁情报的情报特征向量。
[0017]通过上述措施,可以依据每一网络威胁情报对应的多个目标词汇,为网络威胁情报生成情报特征向量。
[0018]在一实施例中,所述针对每一网络威胁情报,从所述网络威胁情报中确定多个目标词汇,包括:
[0019]对所述网络威胁情报进行分词处理,得到多个分词结果;
[0020]从所述多个分词结果中剔除停用词和无效词,得到多个目标词汇。
[0021]通过上述措施,服务端可以为每一网络威胁情报生成多个目标词汇。
[0022]在一实施例中,所述特征抽取算法包括至少两个抽取子算法;
[0023]所述通过特征抽取算法抽取出若干代表性词汇,包括:
[0024]分别通过每一抽取子算法对所述网络威胁情报进行抽取,得到若干候选代表性词汇;
[0025]根据每一抽取子算法对应的若干候选代表性词汇,汇总得到出现频次最高的若干代表性词汇。
[0026]通过上述措施,可以为每一类簇的网络威胁情报抽取出若干代表性词汇。
[0027]在一实施例中,所述根据添加特征标签的网络威胁情报,训练分类模型,得到情报分类模型,包括:
[0028]将所述网络威胁情报对应的多个目标词汇输入所述分类模型,获得所述分类模型输出的预测标签;
[0029]根据所述网络威胁情报的预测标签和特征标签之间的差异,调整所述分类模型的模型参数;
[0030]重复上述过程,直到所述分类模型收敛,得到情报分类模型。
[0031]通过上述措施,可以训练得到情报分类模型。
[0032]在一实施例中,所述方法还包括:
[0033]从目标威胁情报中确定多个目标词汇,并将所述目标威胁情报的多个目标词汇输入所述情报分类模型,获得所述情报分类模型输出的至少一个类别标签;
[0034]为所述目标威胁情报添加所述情报分类模型输出的类别标签。
[0035]在一实施例中,在训练得到情报分类模型后,可以利用该情报分类模型用于对网络威胁情报进行分类。
[0036]另一方面,本申请提供了一种情报分类模型的训练装置,包括:
[0037]生成模块,用于针对数据集中每一网络威胁情报,生成所述网络威胁情报对应的情报特征向量;
[0038]聚类模块,用于根据层次聚类算法,对所述数据集中多个网络威胁情报对应的情报特征向量进行聚类处理,获得多个类簇;
[0039]抽取模块,用于针对每一类簇的情报特征向量对应的网络威胁情报,通过特征抽取算法抽取出若干代表性词汇;
[0040]标注模块,用于输出每一类簇的若干代表性词汇,并响应于标注指令,为所述类簇的情报特征向量对应的网络威胁情报,添加至少一个特征标签;
[0041]训练模块,用于根据添加特征标签的网络威胁情报,训练分类模型,得到情报分类模型。
[0042]在一实施例中,所述训练模块,还用于:
[0043]将所述网络威胁情报对应的多个目标词汇输入所述分类模型,获得所述分类模型输出的预测标签;
[0044]根据所述网络威胁情报的预测标签和特征标签之间的差异,调整所述分类模型的模型参数;
[0045]重复上述过程,直到所述分类模型收敛,得到情报分类模型。
[0046]进一步的,本申请还提供了一种电子设备,所述电子设备包括:
[0047]处理器;
[0048]用于存储处理器可执行指令的存储器;
[0049]其中,所述处理器被配置为执行上述情报分类模型的训练方法。
[0050]此外,本申请还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述情报分类模型的训练方法。
附图说明
[0051]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
[0052]图1为本申请一实施例提供的情报分类模型的训练方法的应用场景示意图;
[0053]图2为本申请一实施例提供的电子设备的结构示意图;
[0054]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情报分类模型的训练方法,其特征在于,包括:针对数据集中每一网络威胁情报,生成所述网络威胁情报对应的情报特征向量;根据层次聚类算法,对所述数据集中多个网络威胁情报对应的情报特征向量进行聚类处理,获得多个类簇;针对每一类簇的情报特征向量对应的网络威胁情报,通过特征抽取算法抽取出若干代表性词汇;输出每一类簇的若干代表性词汇,并响应于标注指令,为所述类簇的情报特征向量对应的网络威胁情报,添加至少一个特征标签;根据添加特征标签的网络威胁情报,训练分类模型,得到情报分类模型。2.根据权利要求1所述的方法,其特征在于,所述针对数据集中每一网络威胁情报,生成所述网络威胁情报对应的情报特征向量,包括:针对每一网络威胁情报,从所述网络威胁情报中确定多个目标词汇;根据词向量模型对每一网络威胁情报对应的多个目标词汇进行转换,得到每一目标词汇对应的词向量;针对每一网络威胁情报,将所述网络威胁情报对应的多个目标词汇的词向量进行融合处理,得到所述网络威胁情报的情报特征向量。3.根据权利要求2所述的方法,其特征在于,所述针对每一网络威胁情报,从所述网络威胁情报中确定多个目标词汇,包括:对所述网络威胁情报进行分词处理,得到多个分词结果;从所述多个分词结果中剔除停用词和无效词,得到多个目标词汇。4.根据权利要求1所述的方法,其特征在于,所述特征抽取算法包括至少两个抽取子算法;所述通过特征抽取算法抽取出若干代表性词汇,包括:分别通过每一抽取子算法对所述网络威胁情报进行抽取,得到若干候选代表性词汇;根据每一抽取子算法对应的若干候选代表性词汇,汇总得到出现频次最高的若干代表性词汇。5.根据权利要求1所述的方法,其特征在于,所述根据添加特征标签的网络威胁情报,训练分类模型,得到情报分类模型,包括:将所述网络威胁情报对应的多个目标词汇输入所述分类模型,获得所述分类模型输出的预测标签;根据所述网络威胁情报的预...

【专利技术属性】
技术研发人员:贾蓉
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1