当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于隐藏服务关联的Tor核心站点发现方法技术

技术编号:35220921 阅读:19 留言:0更新日期:2022-10-15 10:38
本发明专利技术公开一种基于隐藏服务关联的Tor核心站点发现方法,包括步骤(1)隐藏服务关联算法:针对内容相近但域名不同的Web站点,设计基于页面结构和内容的隐藏服务关联算法;(2)计算隐藏服务存活率;(3)隐藏服务访问量测量;(4)Tor核心站点发现:通过(2)和(3)得到的隐藏服务存活率和访问量对(1)中聚类的每个组中的隐藏服务进行分析,识别其中的核心站点。本发明专利技术可实现Tor暗网中具有较高分析价值的核心站点发现。点发现。点发现。

【技术实现步骤摘要】
一种基于隐藏服务关联的Tor核心站点发现方法


[0001]本专利技术属于匿名网络(Anonymity Network)
,具体涉及一种基于隐藏服务关联的Tor核心站点发现方法。

技术介绍

[0002]由于Tor具有匿名性强的特点,许多犯罪分子在其中进行非法交易,从事违法活动,如枪支贩卖、毒品贩卖、隐私信息交易等,此外,一些组织也利用它来实施大规模的网络攻击。为了对暗网内容进行有效监管,需要对Tor暗网内容进行高效爬虫。然而,暗网中的不同隐藏服务重要程度不同,有效信息量也有极大差异,若使用全网爬虫会使得很多有价值的信息无法获取,导致其提供的数据质量较低。此外,暗网中大量域名对应的站点内容几乎一样,即不同域名的网页内容基本相同,这种现象将会对导致大量爬虫分析、存储和计算资源耗费在重复站点内容上,严重制约了对暗网空间的探测和掌握,因此针对Tor暗网的核心站点发现是十分必要的。

技术实现思路

[0003]专利技术目的:针对Tor暗网中存在着大量非法内容亟待加强监管,但目前暗网采集数据质量较低的问题,本专利技术提出一种基于隐藏服务关联的Tor核心站点发现方法,该方法首先对不同域名但内容相同或相似的隐藏服务进行关联,进而通过长期探测获得隐藏服务存活率和访问量来进行核心站点识别。
[0004]本专利技术采用如下技术方案:
[0005]一种基于隐藏服务关联的Tor核心站点发现方法,该方法包括如下步骤:
[0006](1)隐藏服务关联算法:针对内容相近但域名不同的Web站点,设计基于页面结构和内容的隐藏服务关联算法;
[0007](2)计算隐藏服务存活率:通过隐藏服务的描述符是否存在来间接判定隐藏服务是否在线,并将其作为核心站点判断的特征之一;
[0008](3)隐藏服务访问量测量:通过部署隐藏服务目录服务器HSDir收集隐藏服务盲公钥被请求的情况,进而分析比对计算隐藏服务的访问量;
[0009](4)Tor核心站点发现:通过(2)和(3)得到的隐藏服务存活率和访问量对(1)中聚类的每个组中的隐藏服务进行分析,识别其中的核心站点。
[0010]进一步地,所述步骤(1)具体包括:
[0011](11)利用Response Header中的重定向链接进行聚类:由于一些域名访问以后会返回301状态码并自动重定向到其他页面,Response Header头中的Location字段会显示重定向后的页面域名,因此将域名和重定向域名聚类成一组;
[0012](12)将拥有有意义标题的相同站点聚成一类:定义暗网中的站点默认页面的标题是无意义的,包括“Index of/”、“Apache2 Debian Default Page”、“401Authorization Required”、Apache、Nginx,将该无意义标题以及没有标题信息的站点各自划为一组,而将
拥有有意义标题信息且标题文字相同的站点划分为一组;
[0013](13)结合HTMLDOM树、CSS样式、页面关键词综合进行聚类:将在有意义标题的组中抽取一个页面,计算每个页面的DOM树结构、class属性值、id属性值以及页面中的前20个关键词信息,并用相似度算法比较每个页面的DOM树结构相似度、class属性值和id属性值相似度以及页面关键词相似度。
[0014]进一步地,所述步骤(2)具体包括:
[0015](21)从数据库中读取待计算隐藏服务存活率的域名;
[0016](22)部署多个Tor进程,客户端通过Tor控制协议向隐藏服务器发送查询请求,实现多进程并发执行;
[0017](23)如果描述符为非异常状态,将根据返回信息判断描述符是否存在进而保存结果:如果描述符存在,则认为域名在线;如果不存在,则认为域名不在线;
[0018](24)如果描述符查询异常且查询次数不超过5次,则将此域名重新放入队列中,稍后将进行重新查询,返回步骤(22);
[0019](25)根据返回信息,保存计算隐藏服务存活率的检测结果。
[0020]进一步地,所述步骤(3)具体包括:
[0021](31)对每一个v3域名,计算一定周期内的全部盲公钥;
[0022](32)将离线计算的盲公钥结果和从隐藏服务目录服务器上收集到的盲公钥数据做比对,获得每个v3域名的总访问量;
[0023](33)将每个v3域名的总访问量除以统计天数以此来计算该隐藏服务v3域名的日均访问量。
[0024]进一步地,所述步骤(4)中具体包括:
[0025](41)对于(1)中聚类的每个组,计算每个组的存活率sr
j_i
,其值为该组中所有域名的最大存活率;存活率sr
j_i
如下公式表示:
[0026]其中,online_num为测量域名在线
[0027](42)对于(1)中聚类的每个组,计算每个组的访问量view
j_i
:对于有声明镜像站点的网站,view
j_i
为每个组的所有域名访问量的总和;而对于没有声明镜像站点的网站,view
j_i
为每个组的所有域名访问量的最大数值;
[0028](43)将核心站点的发现问题建模为机器学习中的二分类问题,以访问量、存活率、相似页面数量、出入度作为分类属性,并使用XGBoost模型进行核心站点发现;
[0029](44)对于分类为核心站点的页面,同时计算分类的判别概率x,基于该判别概率,进一步将认定的核心站点分为3个级别的重要程度,其中,x≥0.9的页面将被视为最重要的核心站点,0.75≤x<0.9的页面被视为次重要的页面,而0.5≤x<0.75的页面被视为最不重要的核心站点。
[0030]有益效果:本专利技术与现有技术相比,其显著优点是:
[0031]1.隐藏服务探活效率提升:从Tor客户端开始发送请求直至隐藏服务接收,整个过程需要经过15跳洋葱路由器,而使用本专利技术的隐藏服务探活方法,将只需经过3跳洋葱路由器,显著提高了隐藏服务探活效率。
[0032]2.传统的部署隐藏服务目录服务器收集访问量的方案是基于Torv2协议,但是本
方法通过剥离Tor源码离线计算v3域名的盲公钥,最终通过分析比对可以获得Torv3隐藏服务的访问量。
[0033]3.现有的Tor隐藏服务重要度排序并没有考虑Tor协议特征,本专利技术中核心站点与Tor协议特征结合,包括隐藏服务存活率和访问量等,可更有效地实现隐藏服务核心站点发现。
附图说明
[0034]图1是本专利技术综合聚类分析算法示意图。
[0035]图2是本专利技术隐藏服务探活流程图。
[0036]图3是本专利技术隐藏服务探活和访问量测量的系统部署图。
[0037]图4是本专利技术核心站点发现的模型训练流程图。
具体实施方式
[0038]本专利技术设计并实现基于隐藏服务关联的Tor核心站点发现技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于隐藏服务关联的Tor核心站点发现方法,其特征在于,该方法包括如下步骤:(1)隐藏服务关联算法:针对内容相近但域名不同的Web站点,设计基于页面结构和内容的隐藏服务关联算法;(2)计算隐藏服务存活率:通过隐藏服务的描述符是否存在来间接判定隐藏服务是否在线,并将其作为核心站点判断的特征之一;(3)隐藏服务访问量测量:通过部署隐藏服务目录服务器HSDir收集隐藏服务盲公钥被请求的情况,进而分析比对计算隐藏服务的访问量;(4)Tor核心站点发现:通过(2)和(3)得到的隐藏服务存活率和访问量对(1)中聚类的每个组中的隐藏服务进行分析,识别其中的核心站点。2.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法,其特征在于:所述步骤(1)具体包括:(11)利用Response Header中的重定向链接进行聚类:由于一些域名访问以后会返回301状态码并自动重定向到其他页面,Response Header头中的Location字段会显示重定向后的页面域名,因此将域名和重定向域名聚类成一组;(12)将拥有有意义标题的相同站点聚成一类:定义暗网中的站点默认页面的标题是无意义的,包括“Index of/”、“Apache2 Debian Default Page”、“401Authorization Required”、Apache、Nginx,将该无意义标题以及没有标题信息的站点各自划为一组,而将拥有有意义标题信息且标题文字相同的站点划分为一组;(13)结合HTMLDOM树、CSS样式、页面关键词综合进行聚类:将在有意义标题的组中抽取一个页面,计算每个页面的DOM树结构、class属性值、id属性值以及页面中的前20个关键词信息,并用相似度算法比较每个页面的DOM树结构相似度、class属性值和id属性值相似度以及页面关键词相似度。3.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法,其特征在于:所述步骤(2)具体包括:(21)从数据库中读取待计算隐藏服务存活率的域名;(22)部署多个Tor进程,客户端通过Tor控制协议向隐藏服务器发送查询请求...

【专利技术属性】
技术研发人员:杨明邢琳顾晓丹宋炳辰
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1