一种网络威胁情报生成方法及系统技术方案

技术编号:18668230 阅读:26 留言:0更新日期:2018-08-14 20:37
本发明专利技术提供一种网络威胁情报生成方法及系统,方法包括:利用关键词从网络上收集网络安全事件的文本信息;利用分类模型将文本信息进行分类,并将不属于任一类别的文本信息进行过滤;提取每个类别包含的每个文本信息中的安全实体,并生成每个类别包含的每个文本信息的文本摘要,根据安全实体和文本摘要组成情报信息;对同一时间戳的文本信息进行聚类,获得每个时间戳对应的类文本信息,获取不同时间戳的与同一网络安全事件相关的所有类文本信息,将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列,形成了以事件链为展现形式的情报追踪体系,便于安全从业人员实时跟踪某安全事件,减少情报收集的人力资源成本。

A method and system for generating network Threat Intelligence

The invention provides a method and a system for generating network threat information, including: collecting text information of network security events from the network by using keywords; classifying text information by using classification model and filtering text information that does not belong to any category; extracting each text information contained in each category. The security entity in the system generates a text summary of each text information contained in each category, and forms intelligence information according to the security entity and text summary. The text information of the same timestamp is clustered to obtain the class text information corresponding to each timestamp, and different timestamp related to the same network security event is obtained. All kinds of text information are arranged according to the order of time stamps, and the intelligence information corresponding to all kinds of text information related to the same network security event forms an intelligence tracking system in the form of event chain.

【技术实现步骤摘要】
一种网络威胁情报生成方法及系统
本专利技术涉及信息处理
,更具体地,涉及一种网络威胁情报生成方法及系统。
技术介绍
威胁情报是以知识为基础的事实,是通过一定的媒体传递给特定的用户,影响用户的选择及决策,用以辅助解决具体问题的信息。根据美国国家基础设施保护中心(CentrefortheProtectionofNationalInfrastructure,CPNI)的定义,网络威胁情报(CyberThreatIntelligence),是面向网络安全领域的情报信息,通过情报可以解析特定攻击的方法,识别恶意的软件及木马,了解网络安全威胁的发展趋势,用以对传统的安全防御方式进行优化和改进,形成能应对多样化和持续化威胁的安全策略。随着互联网及信息安全的发展,网络空间所受到的威胁也在逐渐复杂化,各类网络攻击也更加具有持续性及隐蔽性,使得安全从业人员必须持续跟踪并关注网络安全事件及其攻击手段、漏洞信息,总结相关情报并利用于系统的安全防护。然而基于人力的情报收集方法缺乏持久性,且成本高、效率低,迫切需要一个自动化的情报收集方法,以便用于整理、提炼网络安全相关的信息。传统的网络威胁情报信息是由专门的机构组织收集与整理,主要通过分析威胁报告、运行沙箱实测、部署蜜罐等半自动方式收集攻击实例,记录攻击源(IP地址、病毒文件、木马程序等)、攻击目标及攻击行为等,形成网络威胁情报CTI(CyberThreatIntelligence)。为了方便这些数值类情报信息的管理,亦提出了诸如OpenIOC,STIX等信息结构标准便于威胁情报的共享与使用。虽然这种半自动化的方法能收集大量的安全情报信息,有利于安全防护系统(入侵检测系统)的构建,但这些信息提取困难、种类繁杂、数据大量且未标识,不便于安全管理人员理解,更不适合作为管理人员制定安全防护策略的依据。
技术实现思路
本专利技术为了克服现有技术中网络威胁情报信息提取困难、种类繁杂、数据大量且未标识,不便于安全管理人员理解的问题,提供一种网络威胁情报生成方法及系统。一方面,本专利技术提供一种网络威胁情报生成方法包括:S1,提取网络安全事件的关键词,利用所述关键词从网络上收集所述网络安全事件的文本信息;S2,训练所述文本信息的分类模型,利用所述分类模型将所述文本信息进行分类,获得每个类别包含的文本信息,并将不属于任一所述类别的文本信息进行过滤;S3,提取每个所述类别包含的每个文本信息中的安全实体,并生成每个所述类别包含的每个文本信息的文本摘要,根据所述安全实体和所述文本摘要组成每个所述类别包含的每个文本信息对应的情报信息;S4,对于任一所述类别,获取任一所述类别包含的每个文本信息对应的时间戳,对同一时间戳的文本信息进行聚类,获得每个时间戳对应的类文本信息,获取不同时间戳的与同一网络安全事件相关的所有类文本信息,将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列。优选地,步骤S2中所述训练所述文本信息的分类模型进一步包括:去除每个所述文本信息的停用词,获取每个所述文本信息的所有文本词,计算每个所述文本词的tf-idf值,获得每个所述文本信息对应的tf-idf值特征向量;利用每个所述文本信息对应的tf-idf值特征向量训练所述文本信息的分类模型。优选地,步骤S3中所述提取每个所述类别包含的每个文本信息中的安全实体进一步包括:获取网络安全事件的触发词,训练所述触发词对应的词向量,计算每个所述类别包含的每个文本信息中的每个句子与所述词向量的相似度,获取相似度大于预设阈值的目标句子,从所述目标句子中提取所述安全实体。优选地,所述词向量包括所述触发词、所述触发词的词性、所述触发词的前一词、所述触发词的后一词、所述触发词的前一词的词性、所述触发词的后一词的词性、所述触发词在句法树中的深度、所述触发词对应的短语的类型、所述触发词到其支配子句顶层的路径和所述触发词的父节点的短语结构。优选地,所述安全实体包括漏洞信息、事件地点、事件波及的设备名和事件波及的受害者。优选地,步骤S3中所述提取每个所述类别包含的每个文本信息中的安全实体进一步包括:利用正则表达式规则从所述目标句子中提取所述漏洞信息;利用命名实体识别技术从所述目标句子中提取所述事件地点、事件波及的设备名和事件波及的受害者。优选地,步骤S3中所述生成每个所述类别包含的每个文本信息的文本摘要进一步包括:利用文本摘要技术生成每个所述类别包含的每个文本信息的文本摘要。一方面,本专利技术提供一种网络威胁情报生成系统,包括:信息收集模块,用于提取网络安全事件的关键词,利用所述关键词从网络上收集所述网络安全事件的文本信息;信息分类过滤模块,用于训练所述文本信息的分类模型,利用所述分类模型将所述文本信息进行分类,获得每个类别包含的文本信息,并将不属于任一所述类别的文本信息进行过滤;情报生成模块,用于提取每个所述类别包含的每个文本信息中的安全实体,并生成每个所述类别包含的每个文本信息的文本摘要,根据所述安全实体和所述文本摘要组成每个所述类别包含的每个文本信息对应的情报信息;情报排列模块,用于对于任一所述类别,获取任一所述类别包含的每个文本信息对应的时间戳,对同一时间戳的文本信息进行聚类,获得每个时间戳对应的类文本信息,获取不同时间戳的与同一网络安全事件相关的所有类文本信息,将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列。一方面,本专利技术提供一种网络威胁情报生成方法的设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述任一所述的方法。一方面,本专利技术提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述任一所述的方法。本专利技术提供的一种网络威胁情报生成方法及系统,首先提取网络安全事件的关键词,并以关键词为主题抓取网络上发布的相关文本信息,再通过训练分类模型对文本信息进行分类和过滤,然后通过基于安全知识本体的实体抽取技术与从文本信息中提取漏洞信息、事件地点、事件波及的设备名和受害者等安全实体,并利用文本摘要技术生成安全事件文本信息的摘要,进而组成每个文本信息对应的情报信息,最终将同一时间戳的文本信息进行层级聚类,获得每个时间戳对应的类文本信息,并将不同时间戳中与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序将进行对齐与排列,组成以事件链为展现形式的情报。该方法融合了自然语言处理、机器学习、数据挖掘及开源信息收集工程技术,以安全事件为导向,从网络上的新闻、报告等开源信息中自动收集与整理安全威胁情报信息,形成以事件链为展现形式的情报追踪体系,便于安全从业人员实时跟踪某安全事件,并快速理解安全威胁相关的漏洞信息、威胁情报,从而能提升安全从业人员的安全防护知识,减少情报收集的人力资源成本,同时为管理人员制定安全防护策略提供情报依据。附图说明图1为本专利技术实施例的一种网络威胁情报生成方法的整体流程示意图;图2为本专利技术实施例的Mirai事件的威胁情报信息的整体结构示意图;图3为本专利技术实施例的一种网络威胁情报生成系统的整体结构示意图;图4为本专利技术实施例本文档来自技高网
...

【技术保护点】
1.一种网络威胁情报生成方法,其特征在于,包括:S1,提取网络安全事件的关键词,利用所述关键词从网络上收集所述网络安全事件的文本信息;S2,训练所述文本信息的分类模型,利用所述分类模型将所述文本信息进行分类,获得每个类别包含的文本信息,并将不属于任一所述类别的文本信息进行过滤;S3,提取每个所述类别包含的每个文本信息中的安全实体,并生成每个所述类别包含的每个文本信息的文本摘要,根据所述安全实体和所述文本摘要组成每个所述类别包含的每个文本信息对应的情报信息;S4,对于任一所述类别,获取任一所述类别包含的每个文本信息对应的时间戳,对同一时间戳的文本信息进行聚类,获得每个时间戳对应的类文本信息,获取不同时间戳的与同一网络安全事件相关的所有类文本信息,将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列。

【技术特征摘要】
1.一种网络威胁情报生成方法,其特征在于,包括:S1,提取网络安全事件的关键词,利用所述关键词从网络上收集所述网络安全事件的文本信息;S2,训练所述文本信息的分类模型,利用所述分类模型将所述文本信息进行分类,获得每个类别包含的文本信息,并将不属于任一所述类别的文本信息进行过滤;S3,提取每个所述类别包含的每个文本信息中的安全实体,并生成每个所述类别包含的每个文本信息的文本摘要,根据所述安全实体和所述文本摘要组成每个所述类别包含的每个文本信息对应的情报信息;S4,对于任一所述类别,获取任一所述类别包含的每个文本信息对应的时间戳,对同一时间戳的文本信息进行聚类,获得每个时间戳对应的类文本信息,获取不同时间戳的与同一网络安全事件相关的所有类文本信息,将与同一网络安全事件相关的所有类文本信息对应的情报信息按照时间戳的顺序进行排列。2.根据权利要求1所述的方法,其特征在于,步骤S2中所述训练所述文本信息的分类模型进一步包括:去除每个所述文本信息的停用词,获取每个所述文本信息的所有文本词,计算每个所述文本词的tf-idf值,获得每个所述文本信息对应的tf-idf值特征向量;利用每个所述文本信息对应的tf-idf值特征向量训练所述文本信息的分类模型。3.根据权利要求1所述的方法,其特征在于,步骤S3中所述提取每个所述类别包含的每个文本信息中的安全实体进一步包括:获取网络安全事件的触发词,训练所述触发词对应的词向量,计算每个所述类别包含的每个文本信息中的每个句子与所述词向量的相似度,获取相似度大于预设阈值的目标句子,从所述目标句子中提取所述安全实体。4.根据权利要求3所述的方法,其特征在于,所述词向量包括所述触发词、所述触发词的词性、所述触发词的前一词、所述触发词的后一词、所述触发词的前一词的词性、所述触发词的后一词的词性、所述触发词在句法树中的深度、所述触发词对应的短语的类型、所述触发词到其支配子句顶层的路径和所述触发词的父节点的短语结构。5.根据权利要求3任一所述的方...

【专利技术属性】
技术研发人员:文辉李科李红朱红松孙利民
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1