一种基于网络爬虫的威胁情报采集方法技术

技术编号:37821440 阅读:26 留言:0更新日期:2023-06-09 09:57
本发明专利技术提出了一种基于网络爬虫的威胁情报采集方法,包括开源情报网站IOC爬虫程序与情报数据详情爬虫程序,所述开源情报网站IOC爬虫程序包括通用反爬虫模块,IOC去重模块,IOC数据提取算法模块,开源情报网站的IOC数据使用开源的爬虫框架scrapy进行网络采集,通过使用extract

【技术实现步骤摘要】
一种基于网络爬虫的威胁情报采集方法


[0001]本专利技术涉及网络安全
,具体地说,涉及一种基于网络爬虫的威胁情报采集方法。

技术介绍

[0002]网络安全形势非常复杂,入侵手段不断攀升,但防御端的检测和响应却极为迟钝。网络攻击者使用大量的匿名网络,恶意软件,恶意链接等手段对目标发起攻击。针对发现困难,追踪困难等问题,通过网络爬虫方式采集国内外开源的情报信息,只要目标主机的响应与威胁情报相匹配,就能定位到目标主机已被入侵。通过程序语言采用网络爬虫的方式采集开源情报,可快捷的丰富威胁情报库,构建出完整的、全方位的、多层次的威胁情报共享平台。
[0003]现有技术中,开源的威胁情报格式多样,网站也是千差万别,反爬手段层出不穷,采集过程复杂繁琐;大量网站的采集,数据请求队列,网络高并发等问题,且采集的开源情报,多半标签不太准确,需要人工重新标记标签,耗时耗力。

技术实现思路

[0004]本专利技术所要解决的技术问题是针对
技术介绍
的缺陷,本专利技术通过一种基于策略控制的流量并行分发装置,采集开源的威胁情报包括但不限于威胁I本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于网络爬虫的威胁情报采集方法,其特征在于,包括开源情报网站IOC爬虫程序与情报数据详情爬虫程序,所述开源情报网站IOC爬虫程序包括通用反爬虫模块,IOC去重模块,IOC数据提取算法模块,开源情报网站的IOC数据使用开源的爬虫框架scrapy进行网络采集,通过使用extract

IOCs算法模块从结构和非结构的网页中提取出精准的IOC原始数据,并将这些原始数据使用redis集群以队列的数据格式进行保存;所述情报数据详情爬虫程序包括IOC详情字段爬虫模块,IOC标签算法生成模块,IOC关联关系生成模块,情报数据详情爬虫程序拿取redis集群中经过去重的IOC元数据,通过IOC详情字段爬虫模块将需要的IOC详情数据进行补充,通过IOC标签生成算法模块为情报数据打上标签,并通过DNS域名解析进行关联IP和国外威胁情报网站关联关系API接口,将关联的IOC数据进行关联存储。2.根据权利要求1所述的一种基于网络爬虫的威胁情报采集方法,其特征在于,在开源情报网站IOC爬虫程序中,反爬虫模块中可以添加网站反爬的参数,可以根据不同的来源网站,根据网站的域名对它们设置不同的反爬参数,做到动态的参数使用;由于IOC元数据的数据量会随着爬取逐渐增加,数据量也是以亿为单位计数,所以IOC去重模块中引入布隆过滤器,将单个IOC元数据作为参数,传入布隆过滤器算法中,生成一个大型位数组保存到redis集合中,用于新的IOC数据去重判断;IOC数据提取算法模块使用extract

IOCs模型。3.根据权利要求1所述的一种基于网络爬虫的威胁情报采集方法,其特征在于,从redis集群中主动提取IOC元数据,并将这些数据自动填充到情报数据详情爬虫程序中,各种类型的情报包括威胁ip、威胁domain、威胁hash、威胁url元数据,依次进入情报详情爬虫程序,在程序中处理各种类型的详情补充,经过补充完的详情数据提交到下一个流程,进行威胁标签的添加,标签字段类型对应为数组类型,可以添加一个以上。4.根据权利要求1所述的一种基于网络爬虫的威胁情报采集方法,其特征在于,在情报检索源中,根据IOC数据获取检索结果,采用爬虫技术爬取页面内容,并对页面内容进行解析提取,获取关键情报数据获取该IOC数据的IP/域名的解析地址或逆向解析域名;从威胁情...

【专利技术属性】
技术研发人员:雷喜悦张海文汪飞郭鹏
申请(专利权)人:中孚安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1