用于威胁情报领域的长文本摘要方法、装置和电子设备制造方法及图纸

技术编号:39332368 阅读:8 留言:0更新日期:2023-11-12 16:07
本发明专利技术公开了用于威胁情报领域的长文本摘要方法、装置和电子设备,属于信息安全技术领域。方法包括:从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素;基于提取的情报要素构建信息脉络图;在信息脉络图中识别关键路径子图;确定一条遍历关键路径子图中所有节点的最短路径;将最短路径表示为<头实体,关系,尾实体>的三元组序列;基于三元组序列生成摘要。该方法能够较好地满足业务侧对于情报长文本摘要的信息完备性和信息压缩性的需求,比较接近安全分析人员编写的情报摘要,能够被有效地用于安全防御中;同时有效地提升了安全事件从发生到情报生成的效率,极大地缩短了威胁预警的时间。地缩短了威胁预警的时间。地缩短了威胁预警的时间。

【技术实现步骤摘要】
用于威胁情报领域的长文本摘要方法、装置和电子设备


[0001]本专利技术涉及信息安全
,尤其涉及一种用于威胁情报领域的长文本摘要方法、装置和电子设备。

技术介绍

[0002]长文本摘要是指对一篇长文本(如论文、报告、新闻等)进行简要概述以便得到摘要的过程,以便读者在不阅读原文的情况下了解其主要内容和观点。长文本摘要的目的是提高阅读效率和信息获取速度,同时保留文本的核心信息。长文本摘要主要有两种类型:抽取式摘要和生成式摘要。抽取式摘要是指从原文中提取重要的句子或短语,然后按照一定的顺序和逻辑组合成摘要。抽取式摘要的优点是保留了原文的措辞和格式,缺点是可能忽略了一些隐含或推理的信息,以及导致摘要过长或冗余。生成式摘要是指对原文进行深入理解,然后用全新的词汇和句式概括原文的主旨。生成式摘要的优点是能够生成更紧凑和流畅的摘要,以及包含一些原文没有明确表达的信息,缺点是需要更高的自然语言处理能力,以及可能导致一些语义或事实上的错误。长文本摘要是自然语言处理中一个具有挑战性和价值性的任务。
[0003]目前已经有许多相关的研究工作和数据集。其中,基于神经网络和注意力机制的模型在生成式摘要方面表现出了较好的效果,但仍然存在一些问题,如重复、不连贯、不准确等。因此,长文本摘要仍然是一个值得探索和改进的领域。
[0004]目前针对长文本摘要的优化主要有如下思路:直接使用GPT

4 32k模型,基本上大部分文章可以一次性生成摘要,由于没有内容损耗,效果最好,但是价格昂贵;对文本内容进行截断,例如截取前N个字符或者隔行读取以生成摘要,但是效果受到较大影响;递归分段摘要:将长文本拆成小段,分别对每一个小段摘要,最后将所有小段摘要合并在一起进行摘要,如果还是超过长度限制,继续递归分段摘要。但分段摘要再合并会损失上下文,导致结果不准确;迭代加深的递归分段摘要:将长文本拆成小段,分段后,第一段摘要和第二段原文一起摘要,依次类推,这样对原文的语义损耗较小,但计算速度较慢。
[0005]威胁情报是指关于网络攻击者的动机、能力、行为和目标的信息,它可以帮助提高安全防御能力,预防或应对网络攻击。及时性、有效性和完整性是威胁情报很重要的三大特性。威胁情报的及时性是指威胁情报的获取、分析、共享和应用的速度,它决定了威胁情报的有效性和价值。及时性对威胁情报很重要,因为网络攻击者的策略、技术和目标可能随时变化,如果威胁情报不能及时反映这些变化,就会导致安全防御落后于攻击者的进步,从而增加遭受损失的风险。因此,应该尽可能地提高威胁情报的及时性,以便快速识别、评估和应对潜在或正在进行的网络攻击。
[0006]因此如何快速生成概述性的情报信息成为了急需要解决的问题,而威胁情报的输
入源通常包含长短文本,如安全资讯、安全博客和开源情报等信息源。目前,针对威胁情报领域采用的现有的长文本摘要方法获得情报摘要,与安全分析人员编写的情报摘要相比还存在较大差距,无法被有效地用于安全防御中。

技术实现思路

[0007]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。
[0008]本专利技术第一方面提供了一种用于威胁情报领域的长文本摘要方法,包括:从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素;基于提取的情报要素构建信息脉络图;在所述信息脉络图中识别出关键路径子图,所述关键路径子图包括如下节点:所述长文本安全信息所属的场景类别对应的必然信息节点及其关联的实体节点;聚合了实体节点及其关联的属性节点的实体团节点;以及若存在TTPs信息,则包括TTPs信息中包含的实体节点;确定一条遍历所述关键路径子图中所有节点的最短路径;将所述最短路径表示为<头实体,关系,尾实体>的三元组序列;并基于所述三元组序列生成摘要。
[0009]优选地,在所述从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素之前包括:判断输入的长文本安全信息中是否含有摘要内容,若含有摘要内容,则提取摘要内容并输出;否则执行后续步骤。
[0010]优选地,所述从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素包括:判断输入的长文本安全信息的场景类别;根据所述场景类别对应的提示词,通过问答的形式,得到关于所述长文本安全信息的简要回答;将得到的简要回答表示为包含<头实体,关系,尾实体>的三元组形式的情报要素。
[0011]优选地,所述基于提取的情报要素构建信息脉络图包括:按照头实体、尾实体及其关系的三元组,建立有向图;基于安全知识图谱,对所述有向图进行实体节点和对应关系的补充,得到信息脉络图。
[0012]优选地,所述长文本安全信息所属的场景类别对应的必然信息包括:若所述长文本安全信息所属的场景类别为恶意软件活动类,则必然信息包括攻击者以及该攻击者所关联的恶意软件、活动时间、感染链和受害者信息;若所述长文本安全信息所属的场景类别为勒索软件分析类,则必然信息为勒索软件的基本信息,包括语言编码、功能作用、感染链、采用的加密算法、勒索票据和加密后文件扩展名;若所述长文本安全信息所属的场景类别为漏洞利用分析类,则必然信息为漏洞的基本信息,包括漏洞号以及漏洞利用过程;若所述长文本安全信息所属的场景类别为恶意软件新变种类,则必然信息包括新变种添加的功能或与原恶意软件的区别信息;
若所述长文本安全信息所属的场景类别为情报通用类,则必然信息为默认信息。
[0013]优选地,所述TTPs信息按照如下方法判断是否存在:判断所述长文本安全信息中含有ATT&CK TTPs知识库中的相关信息的内容比例是否超过预设值,若是,则所述长文本安全信息中存在TTPs信息,否则不存在。
[0014]优选地,所述在所述信息脉络图中识别出关键路径子图包括:将有向的信息脉络图预置为无向的信息脉络图;将无向的信息脉络图中的实体节点的属性信息进行聚合,得到聚合图;在所述聚合图上搜索所有的约束性子图,得到约束性子图集合;其中,所述约束性子图为由所述长文本安全信息所属的场景类别对应的必然信息节点及其对应的边组成的最大连通子图;确定所述约束性子图集合中所有约束性子图之间的连通路径,得到基于约束条件的无向图;按照有向的信息脉络图中的信息将基于约束条件的无向图恢复成有向图,得到所述关键路径子图。
[0015]优选地,所述将无向的信息脉络图中的实体节点的属性信息进行聚合包括:只保留所述无向的信息脉络图中的属性节点和实体节点之间的边,去除属性节点与其它节点之间的边;若存在属性节点同时关联两个实体节点,则复制生成一个新的属性节点以确保两个实体节点均拥有自己的属性节点,同时确保一个属性节点只和一个实体节点之间存在边。
[0016]优选地,所述在所述聚合图上搜索所有的约束性子图包括:步骤a,将必然信息节点及其对应的边按照边表的形式存储在约束条件集合中;步骤b,从所述约束条件集合中取出一个节点,进行BFS搜索,逐层扩展,寻找在所述约束条件集合中的节点,并将找到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于威胁情报领域的长文本摘要方法,其特征在于,包括:从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素;基于提取的情报要素构建信息脉络图;在所述信息脉络图中识别出关键路径子图,所述关键路径子图包括如下节点:所述长文本安全信息所属的场景类别对应的必然信息节点及其关联的实体节点;聚合了实体节点及其关联的属性节点的实体团节点;以及若存在TTPs信息,则包括TTPs信息中包含的实体节点;确定一条遍历所述关键路径子图中所有节点的最短路径;将所述最短路径表示为<头实体,关系,尾实体>的三元组序列;并基于所述三元组序列生成摘要。2.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,在所述从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素之前包括:判断输入的长文本安全信息中是否含有摘要内容,若含有摘要内容,则提取摘要内容并输出;否则执行后续步骤。3.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,所述从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素包括:判断输入的长文本安全信息的场景类别;根据所述场景类别对应的提示词,通过问答的形式,得到关于所述长文本安全信息的简要回答;将得到的简要回答表示为包含<头实体,关系,尾实体>的三元组形式的情报要素。4.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,所述基于提取的情报要素构建信息脉络图包括:按照头实体、尾实体及其关系的三元组,建立有向图;基于安全知识图谱,对所述有向图进行实体节点和对应关系的补充,得到信息脉络图。5.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,所述长文本安全信息所属的场景类别对应的必然信息包括:若所述长文本安全信息所属的场景类别为恶意软件活动类,则必然信息包括攻击者以及该攻击者所关联的恶意软件、活动时间、感染链和受害者信息;若所述长文本安全信息所属的场景类别为勒索软件分析类,则必然信息为勒索软件的基本信息,包括语言编码、功能作用、感染链、采用的加密算法、勒索票据和加密后文件扩展名;若所述长文本安全信息所属的场景类别为漏洞利用分析类,则必然信息为漏洞的基本信息,包括漏洞号以及漏洞利用过程;若所述长文本安全信息所属的场景类别为恶意软件新变种类,则必然信息包括新变种添加的功能或与原恶意软件的区别信息;若所述长文本安全信息所属的场景类别为情报通用类,则必然信息为默认信息。6.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,所述TTPs信息按照如下方法判断是否存在:判断所述长文本安全信息中含有ATT&CK TTPs知识库中的相关信息的内容比例是否超
过预设值,若是,则所述长文本安全信息中存在TTPs信息,否则不存在。7.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,所述在所述信息脉络图中识别出关键路径子图包括:将有向的信息脉络图预置为无向的信息脉络图;将无向的信息脉络图中的实体节点的属性信息进行聚合,得到聚合图;在所述聚合图上搜索所有的约束性子图,得到约束性子图集合;其中,所述约束性子图为由所述长文本安全信息所属的场景类别对应的必然信息节点及其对应的边组成的最大连通子图;确定所述约束性子...

【专利技术属性】
技术研发人员:刘广坤董龙飞翟湛鹏刘志宏李衍
申请(专利权)人:天际友盟珠海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1