一种基于样本流量分析的暗网发现、溯源方法及系统技术方案

技术编号:21340215 阅读:29 留言:0更新日期:2019-06-13 21:47
本发明专利技术公开了一种基于样本流量分析的隐藏网络发现及溯源方法,该方法包括以下步骤:对暗网的用户终端植入木马,采集其上网行为通讯流量数据;在暗网中设置受控的暗网路由节点,采集流量数据;在暗网中设置受控的暗网服务器节点,采集流量数据;通过采集的上述流量数据,实现对用户终端、暗网路由节点和暗网服务器节点之间的关联分析;通过机器学习的方式对暗网的流量数据特征进行识别,并提取流量特征;通过流量特征对流量数据进行匹配,实现暗网的发现及溯源。通过本发明专利技术的技术方案,可以实现对暗网的发现及溯源,完成对暗网非法行为的监控,有效打击恐怖活动。

A Method and System of Dark Network Discovery and Traceability Based on Sample Flow Analysis

The invention discloses a hidden network discovery and Traceability Method Based on sample traffic analysis, which includes the following steps: inserting Trojan horse into user terminals of dark network, collecting traffic data of online behavior communication; setting controlled dark network routing nodes in dark network to collect traffic data; setting controlled dark network server nodes in dark network to collect traffic data; The above traffic data are collected to realize the correlation analysis among user terminals, dark network routing nodes and dark network server nodes; the traffic data characteristics of dark network are identified by machine learning, and the traffic characteristics are extracted; the traffic data are matched by the traffic characteristics to realize the discovery and traceability of dark network. Through the technical scheme of the invention, the discovery and traceability of the dark network can be realized, the illegal behavior of the dark network can be monitored and the terrorist activities can be effectively combated.

【技术实现步骤摘要】
一种基于样本流量分析的暗网发现、溯源方法及系统
本专利技术涉及数据安全领域,具体涉及一种基于样本流量分析的暗网发现及溯源方法及系统。
技术介绍
暗网,是隐藏在互联网的最深处,是一种被有意隐藏的内容,隐藏暗网的访问者信息、暗网的服务提供者信息,达到隐藏通信双方真实身份及传输内容的目标,使其不可被追踪。暗网(不可见网,隐藏网)不能通过超链接访问而需要通过动态网页技术访问的资源集合,不属于那些可以被标准搜索引擎索引的表面网络。暗网是深网(DeepWeb)的一个子集,属于深网的一小部分。据估计,暗网比表面网站大几个数量级。Tor洋葱路由器,是暗网通信的网络路由节点,这些节点主要是通过志愿者计算机节点组成,用户的所有网络流量将通过这些节点进行加密传输,使流量不能追溯到原始用户。洋葱路由器是一个类似于P2P原理的代理服务器,所有安装了洋葱路由的用户既是代理服务器的使用者也是代理服务器的提供者。洋葱路由器是由志愿者,花费自己的带宽建立起来的。然而,Tor的匿名服务已经违背了设计的初衷,并且被用于大量的非法活动,如销售毒品、买卖枪支、涉黄、涉赌、人口贩卖等,这些匿名服务可能被用于规避审查,并且也完全没有办法知道这些服务的提供者是谁,谁购买了这些服务。对于庞大的“暗网”,搜索业界通行的策略主要有两种:其一,构建更有针对性的“暗网”爬虫,以便获取后台数据库;其二,与“暗网”网站合作,实现信息的对接和上浮。对于第一种策略,它始终贯穿搜索引擎的发展过程。百度产品部相关人士对此表示,针对搜索引擎的升级和更新中,大部分与“暗网”问题有关,只不过对普通用户来讲,他们很难察觉。第二种策略似乎更成效。不管是国外的谷歌、雅虎,还是国内的百度,都有针对性的计划,并且用户已经体验到了它们带来的变化。对于暗网爬虫来说,一个简单粗暴的方式是:将各个输入框肯呢过的输入值组合起来形成查询,比如机票查询来说,将所有出发城市、所有目的城市和时间范围的选项一一组合,形成大量的查询,提交给垂直搜索引擎,从其搜索结果里提炼数据库记录。GOOGLE对此提出了解决方案,称之为富含信息查询模块技术。假设为了描述一个职位,完整的查询由3个不同的属性构成:出发城市、到达城市和出发日期。如果在搜索引擎提交查询的时候,部分属性被赋予了值,而其他属性不赋值,则这几个赋值属性一起构成了一个查询模块。如果模块包含一个属性,则称之为一维模块。图中模块1是一维模块,模块2和模块3是二维模块,模块4是三维模块。模块1={出发城市}模块2={出发城市,到达城市}模块3={到达城市,出发日期}模块4={出发城市,到达城市和出发日期}对于某个固定的查询模块来说,如果给模块内每个属性都赋值,形成不同的查询组合,提交给垂直搜索引擎,观察所有返回页面的内容,如果相互之间内容差异较大,则这个查询模块就是富含信息查询模块。但是这将是一个庞大的查询组合基数,为了进一步减少提交的查询数目。GOOGLE的方案使用了ISIT算法。ISIT算法的基本思路是:首先从一维模块开始,对一维查询模块逐个查询,看其是否富含信息查询模块,如果是的话,则将这个一模模块扩展到二维,再次依次查询对应的二维模块,如此类推,逐步增加维数,直到再无法找到富含信息查询模块为止。通过这种方式,就可以找到绝大多数富含信息查询模块,同时也尽可能减少了查询总数,有效达到了目的。然而现有技术中的暗网搜索技术,发现效率较低,而且运算复杂,无法实现暗网用户溯源。因此,我们迫切需要一种技术,可以高效率完成对暗网的发现,并完成暗网使用者及暗网服务提供身份识别的溯源技术。
技术实现思路
为解决上述技术问题,本专利技术提供了一种基于样本流量分析的暗网发现及溯源方法,其特征在于,该方法包括以下步骤:1)对暗网的用户终端植入木马,采集其上网行为通讯流量数据;2)在暗网中设置受控的暗网路由节点,采集流量数据;3)在暗网中设置受控的暗网服务器节点,采集流量数据;4)通过采集的上述流量数据,实现对用户终端、暗网路由节点和暗网服务器节点之间的关联分析;5)通过机器学习的方式对暗网的流量数据特征进行识别,并提取流量特征;6)通过流量特征对流量数据进行匹配,实现暗网的发现及溯源。根据本专利技术的方法,优选的,所述步骤1)对暗网的用户终端植入木马,采集其上网行为通讯流量数据具体包括:对暗网用户终端植入木马,通过对该用户终端的国家进出口流量进行监测,如果发现该终端用户下载访问了暗网浏览器软件,则对其进行追踪并将该终端用户标识为潜在暗网用户,并通过木马植入技术发现其用户终端漏洞,监视其上网的浏览行为,采集其上网行为通讯流量数据。根据本专利技术的方法,优选的,所述步骤3)设置受控的暗网服务器节点,采集流量数据具体包括:通过在暗网网络中设置受控的路由节点,当有主机同其进行通讯时,采集netFlow及网卡的原始流量信息。根据本专利技术的方法,优选的,所述步骤3)设置受控的暗网服务器节点,采集流量数据具体包括:通过在暗网中设置暗网服务器节点,当暗网服务器的开放资源被访问时,采集netFlow及网卡的原始流量信息。根据本专利技术的方法,优选的,所述步骤6)基于构建的暗网访问行为路径,达到暗网溯源的目的。为解决上述技术问题,本专利技术提供了一种基于样本流量分析的暗网发现及溯源系统,该系统包括:暗网用户终端、暗网路由节点、暗网服务器;其特征在于,该系统还包括:在暗网中设置受控路由节点、受控服务器、流量采集系统以及暗网流量关联分析处理系统;通过对暗网的用户终端植入木马,流量采集系统采集其上网行为通讯流量数据;流量采集系统采集受控暗网路由节点以及受控暗网服务器节点的流量数据;将各流量数据发送给暗网流量关联分析处理系统,实现对用户终端、暗网路由节点和暗网服务器节点之间的关联分析;暗网流量关联分析处理系统通过机器学习的方式对暗网的流量数据特征进行识别,并提取流量特征,通过流量特征对流量数据进行匹配,实现暗网的发现及溯源。根据本专利技术的系统,优选的,流量采集系统通过对用户终端的国家进出口流量进行监测,如果发现该终端用户下载访问了暗网浏览器软件,则对其进行追踪并将该终端用户标识为潜在暗网用户,并通过木马植入技术发现用户终端漏洞,监视其上网的浏览行为,采集其上网行为通讯流量数据。根据本专利技术的系统,优选的,通过在暗网网络中设置受控的路由节点,当有主机同其进行通讯时,流量采集系统采集netFlow及网卡的原始流量信息;通过在暗网中设置暗网服务器节点,当暗网服务器的开放资源被访问时,流量采集系统采集netFlow及网卡的原始流量信息。根据本专利技术的系统,优选的,暗网流量关联分析处理系统基于构建的暗网访问行为路径,达到暗网溯源的目的。为解决上述技术问题,本专利技术提供了一种计算机可读存储介质,其特征在于,该介质包括计算机程序指令,通过执行所述计算机程序执行实现上述之一的方法。采用本专利技术的技术方案,找到了一种具体可行的实施方法,突破暗网地址资源发现技术及溯源技术的世界性难题;通过对暗网的发现及溯源,完成对暗网非法行为的监控,有效打击恐怖活动。附图说明图1为本专利技术的系统架构图。图2为本专利技术的方法流程图。具体实施方式随着系统的升级与漏洞的修补,入侵主机进而进行破坏的病毒攻击方式在攻击中所占比例逐渐减少,这些攻击转而改为恶意的消耗网络有限的资源或本文档来自技高网
...

【技术保护点】
1.一种基于样本流量分析的暗网发现及溯源方法,其特征在于,该方法包括以下步骤:1)对暗网的用户终端植入木马,采集其上网行为通讯流量数据;2)在暗网中设置受控的暗网路由节点,采集流量数据;3)在暗网中设置受控的暗网服务器节点,采集流量数据;4)通过采集的上述流量数据,实现对用户终端、暗网路由节点和暗网服务器节点之间的关联分析;5)通过机器学习的方式对暗网的流量数据特征进行识别,并提取流量特征;6)通过流量特征对流量数据进行匹配,实现暗网的发现及溯源。

【技术特征摘要】
1.一种基于样本流量分析的暗网发现及溯源方法,其特征在于,该方法包括以下步骤:1)对暗网的用户终端植入木马,采集其上网行为通讯流量数据;2)在暗网中设置受控的暗网路由节点,采集流量数据;3)在暗网中设置受控的暗网服务器节点,采集流量数据;4)通过采集的上述流量数据,实现对用户终端、暗网路由节点和暗网服务器节点之间的关联分析;5)通过机器学习的方式对暗网的流量数据特征进行识别,并提取流量特征;6)通过流量特征对流量数据进行匹配,实现暗网的发现及溯源。2.根据权利要求1所述的方法,所述步骤1)对暗网的用户终端植入木马,采集其上网行为通讯流量数据具体包括:对暗网用户终端植入木马,通过对该用户终端的国家进出口流量进行监测,如果发现该终端用户下载访问了暗网浏览器软件,则对其进行追踪并将该终端用户标识为潜在暗网用户,并通过木马植入技术发现其用户终端漏洞,监视其上网的浏览行为,采集其上网行为通讯流量数据。3.根据权利要求1所述的方法,所述步骤3)设置受控的暗网服务器节点,采集流量数据具体包括:通过在暗网网络中设置受控的路由节点,当有主机同其进行通讯时,采集netFlow及网卡的原始流量信息。4.根据权利要求1所述的方法,所述步骤3)设置受控的暗网服务器节点,采集流量数据具体包括:通过在暗网中设置暗网服务器节点,当暗网服务器的开放资源被访问时,采集netFlow及网卡的原始流量信息。5.根据权利要求1-4之一所述的方法,所述步骤6)基于构建的暗网访问行为路径,达到暗网溯源的目的。6.一种基于样本流量分析的隐藏...

【专利技术属性】
技术研发人员:王敬义喻波王志海安鹏
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1