【技术实现步骤摘要】
用于威胁情报领域的长文本摘要方法、装置和电子设备
[0001]本专利技术涉及信息安全
,尤其涉及一种用于威胁情报领域的长文本摘要方法、装置和电子设备。
技术介绍
[0002]长文本摘要是指对一篇长文本(如论文、报告、新闻等)进行简要概述以便得到摘要的过程,以便读者在不阅读原文的情况下了解其主要内容和观点。长文本摘要的目的是提高阅读效率和信息获取速度,同时保留文本的核心信息。长文本摘要主要有两种类型:抽取式摘要和生成式摘要。抽取式摘要是指从原文中提取重要的句子或短语,然后按照一定的顺序和逻辑组合成摘要。抽取式摘要的优点是保留了原文的措辞和格式,缺点是可能忽略了一些隐含或推理的信息,以及导致摘要过长或冗余。生成式摘要是指对原文进行深入理解,然后用全新的词汇和句式概括原文的主旨。生成式摘要的优点是能够生成更紧凑和流畅的摘要,以及包含一些原文没有明确表达的信息,缺点是需要更高的自然语言处理能力,以及可能导致一些语义或事实上的错误。长文本摘要是自然语言处理中一个具有挑战性和价值性的任务。
[0003]目前已经有许多相关的研究工作和数据集。其中,基于神经网络和注意力机制的模型在生成式摘要方面表现出了较好的效果,但仍然存在一些问题,如重复、不连贯、不准确等。因此,长文本摘要仍然是一个值得探索和改进的领域。
[0004]目前针对长文本摘要的优化主要有如下思路:直接使用GPT
‑
4 32k模型,基本上大部分文章可以一次性生成摘要,由于没有内容损耗,效果最好,但是价格昂贵;对文本内容进行截断,例如 ...
【技术保护点】
【技术特征摘要】
1.一种用于威胁情报领域的长文本摘要方法,其特征在于,包括:从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素;基于提取的情报要素构建信息脉络图;在所述信息脉络图中识别出关键路径子图,所述关键路径子图包括如下节点:所述长文本安全信息所属的场景类别对应的必然信息节点及其关联的实体节点;聚合了实体节点及其关联的属性节点的实体团节点;以及若存在TTPs信息,则包括TTPs信息中包含的实体节点;确定一条遍历所述关键路径子图中所有节点的最短路径;将所述最短路径表示为<头实体,关系,尾实体>的三元组序列;并基于所述三元组序列生成摘要。2.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,在所述从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素之前包括:判断输入的长文本安全信息中是否含有摘要内容,若含有摘要内容,则提取摘要内容并输出;否则执行后续步骤。3.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,所述从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素包括:判断输入的长文本安全信息的场景类别;根据所述场景类别对应的提示词,通过问答的形式,得到关于所述长文本安全信息的简要回答;将得到的简要回答表示为包含<头实体,关系,尾实体>的三元组形式的情报要素。4.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,所述基于提取的情报要素构建信息脉络图包括:按照头实体、尾实体及其关系的三元组,建立有向图;基于安全知识图谱,对所述有向图进行实体节点和对应关系的补充,得到信息脉络图。5.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,所述长文本安全信息所属的场景类别对应的必然信息包括:若所述长文本安全信息所属的场景类别为恶意软件活动类,则必然信息包括攻击者以及该攻击者所关联的恶意软件、活动时间、感染链和受害者信息;若所述长文本安全信息所属的场景类别为勒索软件分析类,则必然信息为勒索软件的基本信息,包括语言编码、功能作用、感染链、采用的加密算法、勒索票据和加密后文件扩展名;若所述长文本安全信息所属的场景类别为漏洞利用分析类,则必然信息为漏洞的基本信息,包括漏洞号以及漏洞利用过程;若所述长文本安全信息所属的场景类别为恶意软件新变种类,则必然信息包括新变种添加的功能或与原恶意软件的区别信息;若所述长文本安全信息所属的场景类别为情报通用类,则必然信息为默认信息。6.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,所述TTPs信息按照如下方法判断是否存在:判断所述长文本安全信息中含有ATT&CK TTPs知识库中的相关信息的内容比例是否超
过预设值,若是,则所述长文本安全信息中存在TTPs信息,否则不存在。7.如权利要求1所述的用于威胁情报领域的长文本摘要方法,其特征在于,所述在所述信息脉络图中识别出关键路径子图包括:将有向的信息脉络图预置为无向的信息脉络图;将无向的信息脉络图中的实体节点的属性信息进行聚合,得到聚合图;在所述聚合图上搜索所有的约束性子图,得到约束性子图集合;其中,所述约束性子图为由所述长文本安全信息所属的场景类别对应的必然信息节点及其对应的边组成的最大连通子图;确定所述约束性子...
【专利技术属性】
技术研发人员:刘广坤,董龙飞,翟湛鹏,刘志宏,李衍,
申请(专利权)人:天际友盟珠海科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。