【技术实现步骤摘要】
一种基于机器学习的暗网威胁情报挖掘系统和方法
本专利技术涉及计算机网络安全领域,尤其涉及一种基于机器学习的暗网威胁情报挖掘系统和方法。
技术介绍
暗网(DarkWeb),是指只能用特殊软件、特殊授权或对电脑做特殊设置才能访问的网络,构成暗网的隐藏服务网络包括F2F的小型点对点网络以及由公共组织和个人运营的大型流行网络,这些网络大部分都使用分布式网络系统,每个用户都作为暗网中的中继节点,暗网中的流量也通过层层转发和加密来实现匿名的效果。常见的有Tor(洋葱路由)、I2P、FREENET、ZERONET等,其中Tor是目前最常用的暗网网络,其中的网站规模和数量远大于其他。由于访问门槛的存在与加密算法的应用,暗网具有较高的匿名性。事实上,在网络安全领域,对暗网的研究是公认的必要之举。许多安全事件都与暗网有着密不可分的联系。由于暗网的匿名性强,很多黑客(团体)都在暗网上进行违法活动,包括出售漏洞信息、提供黑客服务、出售盗取的数据等严重危害网络空间安全的活动,而这些内容在明网(Clearnet)上往往是滞后的。因此,针对暗网的 ...
【技术保护点】
1.一种基于机器学习的暗网威胁情报挖掘系统,其特征在于,包括数据下载模块、数据解析模块、数据库模块、威胁情报提取模块、数据接口模块;/n所述数据下载模块实现暗网原始数据的下载和更新;/n所述数据解析模块实现对所述数据下载模块得到的原始数据的解析、格式化及存储;/n所述数据库模块实现对所述数据下载模块得到的原始数据、所述数据解析模块得到的中间数据、所述威胁情报提取模块得到的结果数据的存储;/n所述威胁情报提取模块实现对所述数据库模块中存储的数据的分析和内容提取;/n所述数据接口模块实现对数据库的分类访问、数据搜索、数据下载。/n
【技术特征摘要】
1.一种基于机器学习的暗网威胁情报挖掘系统,其特征在于,包括数据下载模块、数据解析模块、数据库模块、威胁情报提取模块、数据接口模块;
所述数据下载模块实现暗网原始数据的下载和更新;
所述数据解析模块实现对所述数据下载模块得到的原始数据的解析、格式化及存储;
所述数据库模块实现对所述数据下载模块得到的原始数据、所述数据解析模块得到的中间数据、所述威胁情报提取模块得到的结果数据的存储;
所述威胁情报提取模块实现对所述数据库模块中存储的数据的分析和内容提取;
所述数据接口模块实现对数据库的分类访问、数据搜索、数据下载。
2.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,所述数据解析模块实现对原始数据的初步处理,实现格式统一,通过hash值实现唯一标识,并以网页为单位进行存储。
3.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,所述数据库模块基于MySQL,存储的信息包括关键站点信息、用户信息、商品信息和威胁内容信息。
4.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,所述威胁情报提取模块包括用户信息提取模块、商品信息提取模块、网页威胁内容提取模块。
5.如权利要求4所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,所述网页威胁内容提取模块基于Glove词向量算法和GRU神经网络模型,包括文本处理、词向量化、模型预测和结果输出。
6.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,所述数据接口模块基于Flask。
7.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,还包括一个基于react的可拓展前端框架,用户在此基础上实现二次开发。
8.一种基于机器学习的暗网威胁情报挖掘方法,其特征在于,包括以下步骤:
步骤1、所述数据下载模块通过爬虫下载暗网原始数据,下载过程中实时统计下载进度,验证文件完整性,下载完毕后原始数据存储到临时文件;
步骤2、所述数据解析模块处理原始数据,利用多线程方式并发处理每一个网页文件,提取出域名、URL、时间戳、hash值、请求头、响应...
【专利技术属性】
技术研发人员:邹福泰,施纬,吴越,李林森,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。