基于知识图谱的APT组织画像构建方法技术

技术编号:28374028 阅读:28 留言:0更新日期:2021-05-08 00:01
本发明专利技术公开了一种基于知识图谱的APT组织画像构建方法,通过大量准确收集APT组织威胁情报信息,通过自然语言处理的方式,把采集到的非结构化数据以及半结构化数据转化为可以使用的结构化数据关键情报,将关键情报以三元组的形式提取并保存,搭建APT威胁情报图数据库,通过图数据库的情报存储,构建APT组织画像图谱。本发明专利技术方法的具体步骤包括,综合性的数据收集,其具体包括:web端威胁情报捕获;基于邮件端自动解析的数据采集;基于开源威胁情报共享平台的数据采集;APT组织画像图谱构建,包括数据处理与数据储存。本发明专利技术将知识图谱技术与APT威胁情报结合起来,通过知识图谱统一描述资产,威胁,漏洞,流量和其他信息,从而实现APT的快速发现。

【技术实现步骤摘要】
基于知识图谱的APT组织画像构建方法
本申请涉及APT攻击溯源
,具体涉及一种基于知识图谱的APT组织画像构建方法。
技术介绍
APT攻击是当前网络领域面临的严重威胁,而应对APT攻击的能力是网络安全的重要保证。目前,通过单次数据分析实现APT检测的可能性较低,因此有必要探索多维联合分析方法。知识图谱可以统一描述资产,威胁,漏洞,流量,日志和其他信息,打破数据鸿沟,并进一步使用知识推理来分析异常行为,从而实现APT的快速发现。对于APT的相关数据采集,一般由网络威胁情报平台中的威胁信息做为信息中心,将所有威胁情报格式符合的威胁情报录入建立的数据库,并通过关键字查询等方式向用户提供查询服务。也即是说,相关技术通常由网络威胁情报平台中的情报建立中心化系统。然而,这种系统具有信息闭塞、相关APT情报追溯难、无直接效益产出、数据滥用等缺陷。目前构建APT组织画像的通常方法主要是采用分析收集用户信息和用户行为来生成用户标签,这种方式因为效率低,数据结构化程度低,难以应对当前手段复杂的网络攻击,亟需一种精练的数据使用方法,便于对威胁情报数据的利用,以达到网络安全方面的高效APT攻击响应的能力。
技术实现思路
针对目前APT组织画像的构建方法存在的效率低、数据结构化程度低、难以应对当前手段复杂的网络攻击的问题,本专利技术公开了一种基于知识图谱的APT组织画像构建方法,其包括,综合性的数据收集;APT组织画像图谱构建,包括数据处理与数据储存。对于综合性的数据收集,其具体包括:web端威胁情报捕获;基于邮件端自动解析的数据采集;基于开源威胁情报共享平台的数据采集。所述的web端威胁情报捕获,针对的是以网页形式发布的威胁情报,利用程序或者脚本模仿网站请求获取网站数据。所述的web端威胁情报捕获,采用基于信息捕获的网络空间安全威胁情报收集方法,针对威胁情报源网站设计的反捕获策略进行对抗,以获取网站内容。所使用的对抗方法具体包括:基于IP检测或时间间隔检查的防爬机制,获取待捕获网页数据包头中每个参数的值,并将其添加到数据包头中;同时,对该网页脚本设置代理IP,设置请求时间间隔,对目标服务器每请求若干次后,更改一次网页脚本IP;针对动态网站的反爬机制,使用Firebug或HttpFox分析网络请求,找到Ajax请求,分析响应的特定参数和特定含义,使用请求或使用urllib2库模拟Ajax请求,并通过网页给出的反馈分析其json格式的响应数据,若该反馈成功返回所需要的参数,便收集该数据。所述的基于邮件端自动解析的数据采集,使用邮箱订阅开源威胁情报电子邮件,编写邮件用户传递代理作为客户端,并将接收的开源威胁情报电子邮件从邮件用户传递代理发送到用户的计算机或手机。使用电子邮件模块解析原始文本,然后还原电子邮件的内容,最后提取所需的威胁情报。通过自然语言处理技术处理电子邮件原始文本的非结构化或半结构化数据,对经过处理的数据进行解析并清理,最终提取为结构化数据。所述的基于开源威胁情报共享平台的数据采集,将从开源威胁情报共享平台获取的数据与常规威胁情报供应获得的数据(如前两种方法获取到的数据)进行比较。将从开源威胁情报共享平台中获取到的数据与本地情报库进行数据比对,首先将该数据进行结构化处理,从数据库索引相同实体的信息,若不存在该类信息,则直接将结构化处理后的数据入库,若存在该类信息,将进行模糊比对,选择其中正确的数据存入数据库。所述的APT组织画像图谱构建,包括数据处理与数据储存;所述的数据存储,包括基于资源描述框架(ResourceDescriptionFramework,RDF)的存储和基于图数据库的存储。基于RDF的存储以三元组的方式来存储数据而不包含该数据的属性信息,基于图数据库的存储以属性图为基本的表示形式。基于图数据库的存储采用Neo4j图形数据库。所述的数据处理,其具体步骤包括:S1,实体命名识别,从文本数据集中识别出命名实体。采用基于规则的方法、统计机器学习方法和开放领域的信息抽取方法进行识别。S2,关系抽取,文本语料库由实体抽取,产生一系列离散的命名实体。从相关语料库中提取实体之间的相关关系,通过这些关系将实体(概念)联系起来,形成知识网络结构,关系抽取所采用的方法包括人工构造语法和语义规则,统计机器学习,开放域的关系抽取技术。S3,属性抽取,从不同的信息源中获取特定实体的属性信息。S4,实体识别,用于解决同名实体产生的歧义问题。具体地,是基于word2vec模型和GloVe模型,使用海量数据预训练一个字符级别模型,使用word2vec/glove模型获取字符序列的低维向量,参与训练Bi-LSTM与CRF结合模型,利用训练好的Bi-LSTM与CRF结合模型进行实体识别。S5,共指消解,用于解决多个指称项对应于同一实体对象的问题。共指消解的表达方式,包括对象对齐、实体匹配和实体同义。采用neuralcoref与spaCy模块来完成共指消解过程,将语料作为spacy.load函数的参数,得到共指消解的返回结果。将综合性的数据收集获取到的数据,按步骤S1至S5进行处理,通过步骤S1到步骤S3可得到初步“实体-关系-属性”三元组形式的结构化数据,经过步骤S4至步骤S5进行消解冗余实体,最终将非结构化数据与半结构化的APT组织数据转化为图数据库可存储的三元组形式数据,并将该三元组形式数据存入图数据库,最终完成APT组织画像的知识图谱构建。本专利技术的有益效果为:一、通过多个维度实现APT威胁情报的搜集工作,使得威胁情报数据更加全面、安全、可信,又联合了知识图谱技术,避免了信息闭塞、相关APT情报追溯难、无直接效益产出、数据滥用等缺陷。二、将知识图谱技术与APT威胁情报结合起来,多维联合分析方法,通过知识图谱统一描述资产,威胁,漏洞,流量和其他信息,打破数据鸿沟,更好的利用数据,从而实现APT的快速发现。附图说明图1是本专利技术的数据收集方法中web端威胁情报捕获技术的流程示意图;图2是本专利技术的数据收集方法中邮件端自动解析的数据采集技术的流程示意图;图3是本专利技术的APT组织画像在APT攻击响应上的应用图谱示例图。具体实施方式为了更好的了解本
技术实现思路
,这里给出一个实施例。本实施方式提供一种APT组织画像图谱构建方法。所述构建方法基于情报数据收集方法,通过大量准确收集APT组织威胁情报信息,通过自然语言处理的方式,把采集到的非结构化数据以及半结构化数据转化为可以使用的结构化数据关键情报,将关键情报以三元组的形式提取并保存,搭建APT威胁情报图数据库,通过图数据库的情报存储,构建APT组织画像图谱。本实施方式提供一种APT组织画像在APT攻击响应上的应用。所述应用通过信息提取、知识融合和知识推理的过程,将知识图谱在不同地方以不同形式表达的信息进行关联和融合,以形成统一的高本文档来自技高网
...

【技术保护点】
1.一种基于知识图谱的APT组织画像构建方法,其特征在于,其包括,/n综合性的数据收集,其具体包括:web端威胁情报捕获;基于邮件端自动解析的数据采集;基于开源威胁情报共享平台的数据采集;/nAPT组织画像图谱构建,包括数据处理与数据储存。/n

【技术特征摘要】
1.一种基于知识图谱的APT组织画像构建方法,其特征在于,其包括,
综合性的数据收集,其具体包括:web端威胁情报捕获;基于邮件端自动解析的数据采集;基于开源威胁情报共享平台的数据采集;
APT组织画像图谱构建,包括数据处理与数据储存。


2.如权利要求1所述的基于知识图谱的APT组织画像构建方法,其特征在于,对于综合性的数据收集,所述的web端威胁情报捕获,针对的是以网页形式发布的威胁情报,利用程序或者脚本模仿网站请求获取网站数据;所述的web端威胁情报捕获,采用基于信息捕获的网络空间安全威胁情报收集方法,针对威胁情报源网站设计的反捕获策略进行对抗,以获取网站内容;所使用的对抗方法具体包括:基于IP检测或时间间隔检查的防爬机制,获取待捕获网页数据包头中每个参数的值,并将其添加到数据包头中;同时,对该网页脚本设置代理IP,设置请求时间间隔,对目标服务器每请求若干次后,更改一次网页脚本IP;针对动态网站的反爬机制,使用Firebug或HttpFox分析网络请求,找到Ajax请求,分析响应的特定参数和特定含义,使用请求或使用urllib2库模拟Ajax请求,并通过网页给出的反馈分析其json格式的响应数据,若该反馈成功返回所需要的参数,便收集该数据。


3.如权利要求1所述的基于知识图谱的APT组织画像构建方法,其特征在于,对于综合性的数据收集,所述的基于邮件端自动解析的数据采集,使用邮箱订阅开源威胁情报电子邮件,编写邮件用户传递代理作为客户端,并将接收的开源威胁情报电子邮件从邮件用户传递代理发送到用户的计算机或手机;使用电子邮件模块解析原始文本,然后还原电子邮件的内容,最后提取所需的威胁情报;通过自然语言处理技术处理电子邮件原始文本的非结构化或半结构化数据,对经过处理的数据进行解析并清理,最终提取为结构化数据。


4.如权利要求1所述的基于知识图谱的APT组织画像构建方法,其特征在于,对于综合性的数据收集,所述的基于开源威胁情报共享平台的数据采集,将从开源威胁情报共享平台获取的数据与常规威胁情报供应获得的数据进行比较;将从开源威胁情报共享平台中获取到的数据与本地情报库进行数据比对,首先将该数据进行结构化处...

【专利技术属性】
技术研发人员:任传伦郭世泽张先国冯景瑜臧浩夏建民俞赛赛刘晓影乌吉斯古愣孟祥頔
申请(专利权)人:中国电子科技集团公司第十五研究所西安邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1