当前位置: 首页 > 专利查询>湘潭大学专利>正文

一种面向第三代暗网的资源采集和数据存储分析方法技术

技术编号:37159685 阅读:45 留言:0更新日期:2023-04-06 22:23
本发明专利技术提供了一种面向第三代暗网的资源采集和数据存储分析方法。实现高性能全文检索引擎技术。利用目前NLP领域最新的Transformer框架和Albert网络进行实体词抽取与关系分析。大规模暗网IP扫描技术建立可溯源全球节点数据库,并结合节点指纹扫描技术,实现暗网节点在明网“落地”。本暗网爬虫基于tor网络,通过更改tor配置文件实现5s变换一次IP的,有效防止被爬取站点对爬虫IP的封锁。爬虫在框架的调度下采取firefox无头浏览器+selenium实现网页快照,利用深度优先遍历策略及广度优先遍历策略多线程抓取网页数据。采用flask框架编写并在virtualenv虚拟环境下运行API,系统目录中的库升级不影响项目,搜索引擎可靠性高。搜索引擎定制爬虫爬取搜索结果,再利用BeautifulSoup、正则对搜索结果进行清洗。正则对搜索结果进行清洗。正则对搜索结果进行清洗。

【技术实现步骤摘要】
一种面向第三代暗网的资源采集和数据存储分析方法


[0001]本专利技术涉及计算机领域,包括暗网信息检索,信息监测,数据采集,情报分析等。

技术介绍

[0002]随着互联网技术的快速发展,在Internet中出现了很多不同类型的数据库,它们存储的信息数量庞大,提供一个无法被正常访问的网络系统,用户只能通过查询接口键入一系列的关键词提交查询之后才能获取后台数据库的信息。而当前的网络爬虫还不具备自动填写查询接口的能力,因此这些信息无法由网络爬虫通过页面超链接关系直接获取。因此信息不能被搜索引擎索引。正是由于它的匿名特性,对我国的网络空间安全造成了极大的隐患。而一般的非技术人员,想要通过暗网获取一些信息,获得暗网的交易信息,查询不法交易留下的蛛丝马迹往往比较困难,所以开发一个这样一站式的平台是非常有必要的。

技术实现思路

[0003]本专利技术实施例提供了一个包括暗网实时监测、暗网内容采集、暗网数据检索、暗网数据画像、暗网数据可视化等业务功能的综合暗网监测分析平台,以实现方便网络安全人员进行大数据分析。
[0004]暗网实时监测模块:
[0005]实时监测全球暗网节点数量及地区分布,获取节点主机名、端口、带宽等信息,基于暗网组网漏洞和分布式探测引擎,依据不同识别算法及域名库,使用本专利技术实施例的暗网站点扫描器不间断进行暗网服务发现及指纹识别。
[0006]其中暗网站点扫描器可扫描对应暗网网址,生成网站指纹,包括应用名、版本、前端框架、后端框架、服务端语言、服务器操作系统、网站容器、内容管理系统和数据库等。通过大规模暗网IP扫描,建立数据库,为暗网信息监测分析系统提供数据支持。
[0007]暗网内容自动采集模块:
[0008]自动采集模块基于暗网爬虫框架,该框架用于调度爬取各个暗网网页的爬虫,并记录各爬虫在爬取数据过程中的运行错误,从而达到及时发现并修正运行错误使爬虫不间断爬取数据的功能,保障爬虫自动化运行稳定性。
[0009]根据目标站点建立数据采集任务并自动进行暗网数据采集,其中数据采集任务通过爬虫,基于Tor网络,通过更改Tor配置文件实现5s变换一次IP,有效防止被爬取站点对爬虫IP的封锁。利用深度优先遍历策略及广度优先遍历策略多线程(分布式)网页抓取,通过分布式架构设计,采用多任务、多线程、多页面采集、循环采集、变频采集、自学习抽取技术、动态解析等技术,实现自动实时采集数据以及抓取网页快照。
[0010]对采集数据进行清洗,建立分类标签,提取有价值数据信息,其中,所述数据信息包括文本内容信息和网络线索信息。
[0011]针对采集到的文本内容进行进一步的数据提取商品信息、交易信息、交易价格、交易时间、交易用户、交易数量、比特币地址等有效信息,并建立相应数据库,以实现检索、溯
源,便于获取信息取证。
[0012]针对采集到的网络线索进行进一步追踪,采集对应网站的钱包地址,FTP指纹,FTP导航,SMTP指纹,SMTP导航信息等。
[0013]网页快照通过Firefox无头浏览器与selenium实现自动截图保存网页当前内容。
[0014]暗网数据检索模块:
[0015]对暗网内容、指纹特征、比特币地址、邮箱等信息进行快速检索。、
[0016]数据检索模块利用高性能全文检索引擎技术、高效的自动分词技术,利用目前NLP领域最新的Transformer框架和Albert网络进行实体词抽取与关系分析,提高信息的查全率及查准率。
[0017]暗网数据画像模块:
[0018]对暗网数据内容进行自动化流程加工处理。
[0019]针对每一个已知暗网节点或其相关码址,溯源其IP地址,结合节点指纹扫描技术,实现暗网节点在明网“落地”,构建节点画像,可进一步利用常规手段开展工作。
[0020]针对每一笔交易信息提取相关事件人物信息,根据交易地址,交易信息持续深挖涉及人或组织的过往,并结合事件信息及过往记录信息进行数据画像分析。暗网数据可视化模块:
[0021]将数据库中大量分散的数据转换成有用的饼状图、变化曲线、词云、统计表格等图形信息。通过各种图形、效果渲染,方便用户快速了解系统采集、清洗暗网站点的情况,简单清晰地揭示出数据间的脉络关系,更利于进行数据观察、理解及挖掘,实现业务数据的高效关联分析。
[0022]本专利技术基于自主编写的暗网爬虫引擎、机器学习内容识别算法和语义识别引擎,实现对Tor网络等常见暗网站点进行内容识别、采集、监控、检索等功能。依托网络空间测绘和指纹识别技术,对整个暗网空间的资产进行发现、抓取、识别和分析(包括组件、端口、指纹、漏洞、隐私泄露情况等),帮助相关部门对暗网空间节点分布、服务情况、敏感内容等情况进行全方位监测。系统还可以进行暗网情报分析,包括暗网IP情报、域名情报、数据情报、人物画像、犯罪舆情等,进一步支持暗网空间的攻击、取证、定位等工作,以达到帮助相关部门对暗网空间进行监测、分析、治理的目的。通过可视化技术,对大量分散的数据转换为有用的图形信息。数据可视化通过各种图形、效果渲染,使数据更为形象直观,一目了然,简单清晰的揭示出数据间的脉络关系,更利于进行数据观察、理解和挖掘,实现业务数据的高效分析。
附图说明
[0023]下面结合附图,对本专利技术作进一步详细地描述。
[0024]图1,是本专利技术的功能模块层次结构。
[0025]图2,是本专利技术数据采集部分的功能模块间调用关系。
[0026]图3,是本专利技术爬虫调度流程示意图。
[0027]图4,是暗网站点扫描模块流程示意图。
[0028]图5,是本专利技术顶层数据流图。
[0029]图6,是本专利技术前后端协同的一个具体流程示意图。
具体实施方式
[0030]本专利技术提供了一个包括暗网站点便捷访问、监测预警、暗网数据采集与清洗、暗网情报分析与数据画像等业务功能的综合暗网监测分析平台。
[0031]本专利技术的暗网检测分析平台,参照图一所示:
[0032]主要包括如下步骤:
[0033]步骤一:暗网站点扫描器
[0034]本专利技术中的暗网站点扫描器由go结合tor编写。通过编写python脚本调用扫描器对需要扫描的网站进行扫描,生成网站指纹。包括应用名、版本、前端框架、后端框架、服务端语言、服务器操作系统、网站容器、内容管理系统和数据库等,为暗网检测分析系统提供数据支持。
[0035]具体实施过程中,通过导入tor网址文件获取tor站点的列表,然后将扫描器作为子进程运行扫描站点,当处理扫描进程超时通过切换tor身份来更换ip,保持连接,对返回的扫描的结果json格式化处理,然后将处理完的数据储存到暗网数据存储系统,进一步的对数据清洗和利用,具体流程图如图4所示。
[0036]步骤二:暗网爬虫框架
[0037]由于对于不同暗网交易市场网页的爬虫是不同的,通过编写暗网爬虫框架调度爬取各个暗网网页的爬虫,并记录各爬虫在爬取数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向第三代暗网的资源采集和数据存储分析方法,其特征在于,所述方法包括:编写暗网站点扫描器,对暗网网站进行指纹扫描,按照爬虫框架的格式编写暗网爬虫,并对需要获取的暗网站点信息进行爬取,将扫描的数据和爬取的数据储存到暗网存储系统。然后暗网展示系统后端调用暗网存储系统的数据在前端进行展示。2.根据权利要求1所述的一种面向第三代暗网的资源采集和数据存储分析方法,其特征在于,所述方法包括:通过编写暗网站点扫描器,然后将扫描器作为子进程运行扫描站点,当处理扫描进程超时通过切换tor身份来更换IP,保持稳定连接。3.根据权利要求1所述的一种面向第三代暗网的资源采集和数据...

【专利技术属性】
技术研发人员:刘新邝亚鑫刘开明李蓟洋颜明远谭湘怡黄通
申请(专利权)人:湘潭大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1