一种基于网络爬虫的威胁情报采集方法技术

技术编号：37821440 阅读：26 留言：0更新日期：2023-06-09 09:57

本发明专利技术提出了一种基于网络爬虫的威胁情报采集方法，包括开源情报网站IOC爬虫程序与情报数据详情爬虫程序，所述开源情报网站IOC爬虫程序包括通用反爬虫模块，IOC去重模块，IOC数据提取算法模块，开源情报网站的IOC数据使用开源的爬虫框架scrapy进行网络采集，通过使用extract

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网络爬虫的威胁情报采集方法

[0001]本专利技术涉及网络安全
，具体地说，涉及一种基于网络爬虫的威胁情报采集方法。

技术介绍

[0002]网络安全形势非常复杂，入侵手段不断攀升，但防御端的检测和响应却极为迟钝。网络攻击者使用大量的匿名网络，恶意软件，恶意链接等手段对目标发起攻击。针对发现困难，追踪困难等问题，通过网络爬虫方式采集国内外开源的情报信息，只要目标主机的响应与威胁情报相匹配，就能定位到目标主机已被入侵。通过程序语言采用网络爬虫的方式采集开源情报，可快捷的丰富威胁情报库，构建出完整的、全方位的、多层次的威胁情报共享平台。
[0003]现有技术中，开源的威胁情报格式多样，网站也是千差万别，反爬手段层出不穷，采集过程复杂繁琐；大量网站的采集，数据请求队列，网络高并发等问题，且采集的开源情报，多半标签不太准确，需要人工重新标记标签，耗时耗力。

技术实现思路

[0004]本专利技术所要解决的技术问题是针对
技术介绍
的缺陷，本专利技术通过一种基于策略控制的流量并行分发装置，采集开源的威胁情...

【技术保护点】

【技术特征摘要】
1.一种基于网络爬虫的威胁情报采集方法，其特征在于，包括开源情报网站IOC爬虫程序与情报数据详情爬虫程序，所述开源情报网站IOC爬虫程序包括通用反爬虫模块，IOC去重模块，IOC数据提取算法模块，开源情报网站的IOC数据使用开源的爬虫框架scrapy进行网络采集，通过使用extract
‑
IOCs算法模块从结构和非结构的网页中提取出精准的IOC原始数据，并将这些原始数据使用redis集群以队列的数据格式进行保存；所述情报数据详情爬虫程序包括IOC详情字段爬虫模块，IOC标签算法生成模块，IOC关联关系生成模块，情报数据详情爬虫程序拿取redis集群中经过去重的IOC元数据，通过IOC详情字段爬虫模块将需要的IOC详情数据进行补充，通过IOC标签生成算法模块为情报数据打上标签，并通过DNS域名解析进行关联IP和国外威胁情报网站关联关系API接口，将关联的IOC数据进行关联存储。2.根据权利要求1所述的一种基于网络爬虫的威胁情报采集方法，其特征在于，在开源情报网站IOC爬虫程序中，反爬虫模块中可以添加网站反爬的参数，可以根据不同的来源网站，根据网站的域名对它们设置不同的反爬参数，做到动态的参数使用；由于IOC元数据的数据量会随着爬取逐渐增加，数据量也是以亿为单位计数，所以IOC去重模块中引入布隆过滤器，将单个IOC元数据作为参数，传入布隆过滤器算法中，生成一个大型位数组保存到redis集合中，用于新的IOC数据去重判断；IOC数据提取算法模块使用extract
‑
IOCs模型。3.根据权利要求1所述的一种基于网络爬虫的威胁情报采集方法，其特征在于，从redis集群中主动提取IOC元数据，并将这些数据自动填充到情报数据详情爬虫程序中，各种类型的情报包括威胁ip、威胁domain、威胁hash、威胁url元数据，依次进入情报详情爬虫程序，在程序中处理各种类型的详情补充，经过补充完的详情数据提交到下一个流程，进行威胁标签的添加，标签字段类型对应为数组类型，可以添加一个以上。4.根据权利要求1所述的一种基于网络爬虫的威胁情报采集方法，其特征在于，在情报检索源中，根据IOC数据获取检索结果，采用爬虫技术爬取页面内容，并对页面内容进行解析提取，获取关键情报数据获取该IOC数据的IP/域名的解析地址或逆向解析域名；从威胁情...

【专利技术属性】
技术研发人员：雷喜悦，张海文，汪飞，郭鹏，
申请(专利权)人：中孚安全技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人