面向威胁情报的安全知识图谱构建方法及系统技术方案

技术编号:21299180 阅读:28 留言:0更新日期:2019-06-12 07:49
本发明专利技术涉及一种面向威胁情报的安全知识图谱构建方法及系统。该方法的步骤包括:1)采集威胁情报的结构化数据和非结构化数据;2)对采集的结构化数据和非结构化数据进行知识抽取,得到威胁情报实体及实体间关系;3)构建基于图的本体模式,其中的节点表示威胁情报实体,边表示威胁情报实体间关系;4)根据步骤3)构建的基于图的本体模式,将步骤2)抽取的威胁情报实体及实体间关系存储到图数据库中,形成威胁情报的知识图谱。进一步利用所述图数据库提供查询服务和可视化展示功能。本发明专利技术将知识图谱技术应用到威胁情报领域,构建面向威胁情报的安全知识图谱,将分散的情报融合,同时提高了威胁信息的分析能力。

Method and System of Building Security Knowledge Map for Threat Intelligence

The invention relates to a method and system for constructing security knowledge atlas for threat intelligence. The steps of this method include: 1) collecting structured data and unstructured data of threat intelligence; 2) extracting knowledge from structured data and unstructured data to get the relationship between Threat Intelligence entities and entities; 3) building an ontology model based on graph, in which nodes represent Threat Intelligence entities while representing the relationship between Threat Intelligence entities; 4) building a base based on step 3. In the ontology model of the graph, the extracted threat information entities and their relationships are stored in the graph database to form the knowledge map of threat information. The graph database is further utilized to provide query service and visual display function. The invention applies knowledge atlas technology to threat information field, constructs security knowledge atlas for threat information, integrates dispersed information, and improves the analysis ability of threat information.

【技术实现步骤摘要】
面向威胁情报的安全知识图谱构建方法及系统
本专利技术属于计算机网络安全领域,涉及一种知识图谱构建方法,更具体地,涉及一种面向威胁情报的安全知识图谱构建方法及系统。
技术介绍
近年来,网络空间安全环境日益复杂,随着技术的进步,不法分子发起的网络攻击越来越高级、隐蔽,尤其是高级持续性威胁(APT)攻击呈现出多发态势,传统的防御措施无法满足当前的安全需求。在此背景下,威胁情报这一新兴技术应运而生。威胁情报描述网络空间中的安全实体及关联关系,为威胁响应提供决策依据,已成为构建新一代网络空间安全防御的基石。威胁情报作为一个新兴领域,目前的研究较为散乱、初步,存在着情报获取方式有限,采集技术有待提高,缺乏分析能力,尚未形成统一的共享标准等问题。而知识图谱自2012年由谷歌公司提出以来,已在知识抽取,知识融合与知识推理等方面发展了许多研究成果,并在智能问答,个性化推荐,情报分析等方面发挥重要作用。从本质上讲,知识图谱是一个语义网。语义网被用来存储知识,具有有向图结构,其中,图中的顶点表示实体,图中的边表示实体间语义关系。知识图谱将杂乱的信息表示成实体-关系结构的知识,使资源更加容易理解与计算,以达到智能化语义搜索的目标。在威胁情报领域应用知识图谱技术,可以将分散的威胁信息融合,提高情报输出质量,缓解数据爆发带来的分析困难,更好的发掘和利用威胁情报,提升威胁情报共享、分析与利用等多个方面应用能力。
技术实现思路
本专利技术提出一种面向威胁情报的安全知识图谱构建方法及系统,通过将知识图谱技术应用到威胁情报领域,解决当前威胁情报多源异构、信息分析能力弱等问题。为达到上诉目的,本专利技术采用具体技术方案是:一种面向威胁情报的安全知识图谱构建方法,包括以下步骤:1)数据采集。通过爬虫等手段从网络开放的威胁情报数据源、安全社区博客、安全报告等来源收集威胁情报的结构化和非结构化数据,用于后续的威胁情报知识抽取。2)知识抽取。使用模式匹配和自然语言处理技术对收集的威胁情报基础数据进行抽取,抽取出威胁情报实体及其关系,得到高质量的情报知识。3)本体构建。参考结构化威胁信息表达式(STIXTM)威胁情报标准,结合实际,提出一种基于图的本体模式,节点表示威胁情报实体,边表示威胁情报实体间关系。4)数据转储。使用图数据库作为后端存储解决方案,将抽取的威胁情报知识转化为一定的格式,存储到图数据库中,形成情报知识图谱,用于后续的共享、分析和利用。进一步地,利用所述图数据库提供查询服务和可视化展示功能。使用数据可视化技术对分析、查询所得的结果以图的方式进行直观的可视化展现。一种面向威胁情报的安全知识图谱系统,包括数据采集模块、消息队列模块、实体抽取模块、关系抽取模块、本体构建模块和数据转储模块。1、数据采集模块。使用爬虫技术从网络上开放的威胁情报数据源、安全社区博客、安全报告等来源收集威胁情报结构化和非结构化数据,将威胁情报发送到相应的消息队列中。2、消息队列模块。消息队列使用RabbitMQ实现,使用topic类型的交换器,通过路由键将收集的威胁情报数据路由到相应的抽取模块。3、实体抽取模块。对结构化数据,对其数据模式进行解读,使用模式匹配的方式识别出威胁情报实体;对非结构化文本数据,使用自然语言处理工具包StanfordCoreNLP进行命名实体识别,抽取出威胁情报实体。4、关系抽取模块。对结构化数据,对其数据模式进行解读,使用模式匹配的方式识别出威胁情报实体间关系;对非结构化文本数据,在识别出威胁情报实体的基础上,使用StanfordCoreNLP工具包中的TokensRegex框架找出满足特定模式的文本序列,抽取出实体间关系。5、本体构建模块。参考STIX威胁情报标准,结合本人所在研究小组的行业经验,构建一种具有高度可扩展性的面向威胁情报的图本体模式,涵盖大部分威胁情报实体及关系,作为图数据库模式。6、数据转储模块。基于数据的海量性和系统的成熟度与易用性,威胁情报后端存储使用JanusGraph分布式图数据库,采用面向列的数据库HBase作为JanusGraph的存储后端,使用内置的JanusGraphServer引擎作为服务器组件与客户端交互,数据转储模块通过提交Gremlin语句的方式存储威胁情报数据。进一步地,还包括查询服务模块。查询服务模块以REST接口的形式为用户提供服务,将用户的查询转换为相应的Gremlin语句,提交到JanusGraphServer的HTTP服务接口,获得执行结果,处理、转换为相应的格式,返回到前端。进一步地,还包括可视化模块。可视化模块对查询结果以图的方式进行直观展示,用户在浏览器中输入查询关键字,点击搜索后,可视化模块使用d3.js等前端框架将威胁情报实体及关系用节点和边展示在界面上。威胁情报作为一个新兴领域,当前研究尚处于萌芽阶段,而知识图谱中涉及的知识抽取、知识融合和知识推理技术正契合了威胁情报中情报判定,资产管理,态势感知,情报融合与分析的需求。本专利技术将知识图谱技术应用到威胁情报领域,提出一种面向威胁情报的安全知识图谱构建方法,将分散的情报融合,同时也提高了威胁信息的分析能力。附图说明图1是本专利技术中面向威胁情报的安全知识图谱系统的整体流程图。图2是本专利技术中定义的表示威胁情报实体及关系的本体模式图。图3是本专利技术中实体抽取流程图。图4是本专利技术中实体间关系抽取流程图。图5是本专利技术中数据转储流程图。图6是本专利技术中查询服务流程图。图7是本专利技术中实体查询可视化示意图。图8是本专利技术中关系查询可视化示意图。具体实施方式为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术的目的、特征和优点能够更加明显易懂,下面结合附图和事例对本专利技术中技术核心作进一步详细的说明。在本专利技术中,设计了一套面向威胁情报的安全知识图谱系统,能够有效解决上述所存在的问题,所述系统包括如下:如图1所示,为安全知识图谱系统的整体流程图。数据采集模块100从网络上收集威胁情报数据,通过相应的消息队列模块200路由到知识抽取模块(包括实体抽取模块400和关系抽取模块500),从中抽取出威胁情报实体及关系,然后通过本体构建模块300构建基于图的本体模式,并通过数据转储模块600存储到图数据库中,同时通过查询服务模块700和可视化模块800提供查询服务和可视化展示。如图2所示,本体模式包括威胁情报实体和关系。实体有AS(自治系统)、Campaign(网络战役)、Cert(数字证书)、Domain(域名)、HackerGroup(黑客组织)、Incident(安全事件)、IP(网络地址)、Mail(电子邮件)、Mailbox(电子邮箱)、Organization(组织机构)、Report(安全报告)、Sample(样本)、TTP(战术、技术和程序)、URL(网址)、User(身份标识)、Vulnerability(漏洞)等;关系包括use(使用)、authorize(授权)、resolve(解析)、contain(包含)、register(注册)、host(托管)、launch(发动)、belong(属于)、refer(提及)、communicate(通信)、target(攻击)、send(发送)、receive(接收)等。如图3所示,实体本文档来自技高网
...

【技术保护点】
1.一种面向威胁情报的安全知识图谱构建方法,其特征在于,包括以下步骤:1)采集威胁情报的结构化数据和非结构化数据;2)对采集的结构化数据和非结构化数据进行知识抽取,得到威胁情报实体及实体间关系;3)构建基于图的本体模式,其中的节点表示威胁情报实体,边表示威胁情报实体间关系;4)根据步骤3)构建的基于图的本体模式,将步骤2)抽取的威胁情报实体及实体间关系存储到图数据库中,形成威胁情报的知识图谱。

【技术特征摘要】
1.一种面向威胁情报的安全知识图谱构建方法,其特征在于,包括以下步骤:1)采集威胁情报的结构化数据和非结构化数据;2)对采集的结构化数据和非结构化数据进行知识抽取,得到威胁情报实体及实体间关系;3)构建基于图的本体模式,其中的节点表示威胁情报实体,边表示威胁情报实体间关系;4)根据步骤3)构建的基于图的本体模式,将步骤2)抽取的威胁情报实体及实体间关系存储到图数据库中,形成威胁情报的知识图谱。2.根据权利要求1所述的方法,其特征在于,步骤1)通过爬虫从网络开放的威胁情报数据源、安全社区博客、安全报告收集威胁情报的结构化数据和非结构化数据。3.根据权利要求1所述的方法,其特征在于,步骤1)将采集的威胁情报的结构化数据和非结构化数据发送到消息队列中,步骤2)对所述消息队列中的数据进行知识抽取。4.根据权利要求1所述的方法,其特征在于,步骤2)使用模式匹配和自然语言处理技术进行所述知识抽取,包括:2.1)实体抽取步骤:对结构化数据,对其数据模式进行解读,使用模式匹配的方式识别出威胁情报实体;对非结构化文本数据,使用自然语言处理工具进行命名实体识别,抽取出威胁情报实体;2.2)关系抽取步骤:对结构化数据,对其数据模式进行解读,使用模式匹配的方式识别出威胁情报实体间关系;对非结构化文本数据,在识别出威胁情报实体的基础上,使用自然语言处理工具找出满足特定模式的文本序列,抽取出实体间关系。5.根据权利要求1所述的方法,其特征在于,步骤3)根据根据威胁情报相关国际标准及行业经验构建基于图的本体模式。6.根据权利要求1所述的方法,其特征在于,步骤4)使用JanusGraph分布式图数据库,采用面向列的数据库HBase作为JanusGraph的存储后端,使用内置的JanusGraphServer引擎作为服务器组件与客户端交互,通过提交Gremlin语句的方式存储威胁情报数据。7.根据权利要求1所...

【专利技术属性】
技术研发人员:王天姜波江钧杜翔宇卢志刚姜政伟
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1