一种基于网络爬虫的威胁情报采集方法技术

技术编号:37821440 阅读:22 留言:0更新日期:2023-06-09 09:57
本发明专利技术提出了一种基于网络爬虫的威胁情报采集方法,包括开源情报网站IOC爬虫程序与情报数据详情爬虫程序,所述开源情报网站IOC爬虫程序包括通用反爬虫模块,IOC去重模块,IOC数据提取算法模块,开源情报网站的IOC数据使用开源的爬虫框架scrapy进行网络采集,通过使用extract

【技术实现步骤摘要】
一种基于网络爬虫的威胁情报采集方法


[0001]本专利技术涉及网络安全
,具体地说,涉及一种基于网络爬虫的威胁情报采集方法。

技术介绍

[0002]网络安全形势非常复杂,入侵手段不断攀升,但防御端的检测和响应却极为迟钝。网络攻击者使用大量的匿名网络,恶意软件,恶意链接等手段对目标发起攻击。针对发现困难,追踪困难等问题,通过网络爬虫方式采集国内外开源的情报信息,只要目标主机的响应与威胁情报相匹配,就能定位到目标主机已被入侵。通过程序语言采用网络爬虫的方式采集开源情报,可快捷的丰富威胁情报库,构建出完整的、全方位的、多层次的威胁情报共享平台。
[0003]现有技术中,开源的威胁情报格式多样,网站也是千差万别,反爬手段层出不穷,采集过程复杂繁琐;大量网站的采集,数据请求队列,网络高并发等问题,且采集的开源情报,多半标签不太准确,需要人工重新标记标签,耗时耗力。

技术实现思路

[0004]本专利技术所要解决的技术问题是针对
技术介绍
的缺陷,本专利技术通过一种基于策略控制的流量并行分发装置,采集开源的威胁情报包括但不限于威胁IP,威胁HASH,威胁DOMAIN,威胁URL等元数据。并将这些元数据存储到Redis集群中,以初始原数据的形式作为分布式网络爬虫的入口。网络爬虫程序中包括的模块有:Ioc任务分发模块,Ioc数据去重模块,Ioc详情字段采集模块,Ioc标签生成算法模块,Ioc关联关系生成模块,通过此程序,将收集过来的情报网站地址进行任务打包,使用Ioc任务分发模块将任务请求队列分发到rabbitmq队列中,基于scrapy的基础架构搭建分布式程序,进行全网大规模,高效率的威胁情报数据采集,构建出完整的攻击链条。
[0005]本专利技术为解决上述技术问题采用以下技术方案:
[0006]一种基于网络爬虫的威胁情报采集方法,包括开源情报网站IOC爬虫程序与情报数据详情爬虫程序,所述开源情报网站IOC爬虫程序包括通用反爬虫模块,IOC去重模块,IOC数据提取算法模块,开源情报网站的IOC数据使用开源的爬虫框架scrapy进行网络采集,通过使用extract

IOCs算法模块从结构和非结构的网页中提取出精准的IOC原始数据,并将这些原始数据使用redis集群以队列的数据格式进行保存;
[0007]所述情报数据详情爬虫程序包括IOC详情字段爬虫模块,IOC标签算法生成模块,IOC关联关系生成模块,情报数据详情爬虫程序拿取redis集群中经过去重的IOC元数据,通过IOC详情字段爬虫模块将需要的IOC详情数据进行补充,通过IOC标签生成算法模块为情报数据打上标签,并通过DNS域名解析进行关联IP和国外威胁情报网站关联关系API接口,将关联的IOC数据进行关联存储。
[0008]优选的,在开源情报网站IOC爬虫程序中,反爬虫模块中可以添加网站反爬的参
数,可以根据不同的来源网站,根据网站的域名对它们设置不同的反爬参数,做到动态的参数使用;由于IOC元数据的数据量会随着爬取逐渐增加,数据量也是以亿为单位计数,所以IOC去重模块中引入布隆过滤器,将单个IOC元数据作为参数,传入布隆过滤器算法中,生成一个大型位数组保存到redis集合中,用于新的IOC数据去重判断;IOC数据提取算法模块使用extract

IOCs模型。
[0009]优选的,从redis集群中主动提取IOC元数据,并将这些数据自动填充到情报数据详情爬虫程序中,各种类型的情报包括威胁ip、威胁domain、威胁hash、威胁url元数据,依次进入情报详情爬虫程序,在程序中处理各种类型的详情补充,经过补充完的详情数据提交到下一个流程,进行威胁标签的添加,标签字段类型对应为数组类型,可以添加一个以上。
[0010]优选的,在情报检索源中,根据IOC数据获取检索结果,采用爬虫技术爬取页面内容,并对页面内容进行解析提取,获取关键情报数据获取该IOC数据的IP/域名的解析地址或逆向解析域名;从威胁情报文章类情报源中获得的攻击方式、利用漏洞和利用工具映射到IOC的攻击方式中。
[0011]优选的,还包括以下步骤:
[0012]S1、收集开源的情报网站;根据已知的攻击指标,进行查找原始的公布来源,将这些来源进行整理,保存为队列类型,提供开源情报网站IOC爬虫程序进行网络爬虫;
[0013]S2、定制反爬虫模型;反爬虫模型中可以动态添加不同网站的基础反爬,可以设置网络请求的下载中间件,在中间件中添加条件,将不同网站的反爬方式进行添加;
[0014]S3、多任务请求网络获取目标网站数据,将第一步和第二步进行结合处理,获取对应的IOC原始数据的HTML页面;
[0015]S4、IOC数据提取,将第三步过程中获取的IOC原始数据的HTML页面进行IOC数据提取,提取的数据有ip、domain、url、hash,并将一个页面中提取出的数据使用字典嵌套列表的形式返回出来,根据需求提取对应的IOC元数据;
[0016]S5、将返回出的数据以字典键值的形式提取出对应的列表值,并将列表值进行遍历保存到事前定义好redis集群索引下,再保存之前会进行去重,会根据已有的算法去判断此IOC是否已存在数据库中,再进行持久保存,到此,IOC元数据爬虫程序工作完成;
[0017]S6、IOC元数据下发模块,此模块将主动接收来自redis集群中的IOC元数据,会根据固定的算法将ip、domain、hash、url进行下发不同的API接口进行处理;
[0018]S7、IOC详情字段爬虫模块,此模块中封装了不同的API接口,ip元数据分发ip的接口进行详情字段填充,domain元数据分发domain的接口进行详情字段填充,其余的IOC元数据根据这个逻辑排列处理;
[0019]S8、IOC标签算法生成模块,此模块会根据S6,S7两个流程处理完进行标签的映射,内部会提前定义好对应的标签,根据恶意类型使用hash映射的方式去匹配对应的标签,匹配的标签可以是一个或多个,标签以数组类型进行保存;
[0020]S9、IOC关联关系生成模块,此模块的逻辑相对复杂些,首先根据产出的ip元数据进行解析关联的domain,domain再去解析对应的子domain,然后根据一些报告中提到关联IOC进行关联,过程中会将ip、hash、domain、url分别进行关联关系获取,然后关联到的数据再经过去重,生成最终的关联关系,到此,IOC情报详情爬虫程序工作完成。
[0021]本专利技术采用以上技术方案与现有技术相比,具有以下有益效果:
[0022]1.本专利技术提供的一种基于网络爬虫的威胁情报采集方法,通过开源情报网站Ioc数据采集程序和情报数据详情补充程序分离采集,能够进行采集程序的高度解耦。
[0023]2.本专利技术提供的一种基于网络爬虫的威胁情报采集方法,针对目前数据来源单一,大数据量,高并发的采集形式进行了处理,一方面提高了来源数据多样性,可以根据需求进行灵活自主的添加来源,另本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络爬虫的威胁情报采集方法,其特征在于,包括开源情报网站IOC爬虫程序与情报数据详情爬虫程序,所述开源情报网站IOC爬虫程序包括通用反爬虫模块,IOC去重模块,IOC数据提取算法模块,开源情报网站的IOC数据使用开源的爬虫框架scrapy进行网络采集,通过使用extract

IOCs算法模块从结构和非结构的网页中提取出精准的IOC原始数据,并将这些原始数据使用redis集群以队列的数据格式进行保存;所述情报数据详情爬虫程序包括IOC详情字段爬虫模块,IOC标签算法生成模块,IOC关联关系生成模块,情报数据详情爬虫程序拿取redis集群中经过去重的IOC元数据,通过IOC详情字段爬虫模块将需要的IOC详情数据进行补充,通过IOC标签生成算法模块为情报数据打上标签,并通过DNS域名解析进行关联IP和国外威胁情报网站关联关系API接口,将关联的IOC数据进行关联存储。2.根据权利要求1所述的一种基于网络爬虫的威胁情报采集方法,其特征在于,在开源情报网站IOC爬虫程序中,反爬虫模块中可以添加网站反爬的参数,可以根据不同的来源网站,根据网站的域名对它们设置不同的反爬参数,做到动态的参数使用;由于IOC元数据的数据量会随着爬取逐渐增加,数据量也是以亿为单位计数,所以IOC去重模块中引入布隆过滤器,将单个IOC元数据作为参数,传入布隆过滤器算法中,生成一个大型位数组保存到redis集合中,用于新的IOC数据去重判断;IOC数据提取算法模块使用extract

IOCs模型。3.根据权利要求1所述的一种基于网络爬虫的威胁情报采集方法,其特征在于,从redis集群中主动提取IOC元数据,并将这些数据自动填充到情报数据详情爬虫程序中,各种类型的情报包括威胁ip、威胁domain、威胁hash、威胁url元数据,依次进入情报详情爬虫程序,在程序中处理各种类型的详情补充,经过补充完的详情数据提交到下一个流程,进行威胁标签的添加,标签字段类型对应为数组类型,可以添加一个以上。4.根据权利要求1所述的一种基于网络爬虫的威胁情报采集方法,其特征在于,在情报检索源中,根据IOC数据获取检索结果,采用爬虫技术爬取页面内容,并对页面内容进行解析提取,获取关键情报数据获取该IOC数据的IP/域名的解析地址或逆向解析域名;从威胁情...

【专利技术属性】
技术研发人员:雷喜悦张海文汪飞郭鹏
申请(专利权)人:中孚安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1