一种基于特征选择的Tor隐藏服务流量识别方法技术

技术编号：35213806 阅读：28 留言：0更新日期：2022-10-15 10:28

本发明专利技术设计了一种基于特征选择的Tor隐藏服务流量识别方法。该方法通过构建基于云服务器的隐藏服务流量采集系统来完成Tor版本3隐藏服务流量采集与数据预处理，通过设计一种特征选择算法来为不同识别模型构建最优特征子集。隐藏服务流量采集与数据预处理主要包括构建基于云服务器的流量采集系统、Tor隐藏服务流量采集、Tor隐藏服务流量数据预处理。特征选择算法以mRMR算法为基础通过改善相关冗余的估计误差与减少无关冗余的负面影响来为不同的识别模型构建最优特征子集，从而在保证识别准确率与误报率的前提下降低识别模型的实际部署开销。部署开销。部署开销。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征选择的Tor隐藏服务流量识别方法

[0001]本专利技术涉及一种基于特征选择的Tor隐藏服务流量识别方法，属于网络空间安全领域，具体应用于在Tor网络中针对版本3的隐藏服务进行网络流量识别。

技术介绍

[0002]匿名网络是一种采用数据转发、内容加密、流量混淆等措施来隐藏通信内容及关系的通信网络。Tor是在实际部署中最流行的匿名通信网络，它为隐藏服务的发展提供了基础。Tor不仅采用三跳加密代理机制保护了用户的匿名性，而且结合分布式哈希表、隐藏服务目录服务器技术保护了隐藏服务站点的匿名性。然而，隐藏服务在为用户提供匿名性的同时，也为网络违法犯罪提供了空间。一方面，隐藏服务被不法分子用于搭建匿名市场实现匿名交易、搭建匿名论坛进行盗版内容分发等；另一方面，隐藏服务被黑客用于部署服务器来销售恶意软件或发起DDoS等网络攻击。
[0003]业界和学界对上述隐藏服务带来的安全问题十分关注，并且从不同的角度提出方案来应对这个问题。有的工作尝试将表面网用户行为与隐藏服务用户行为建立关联来对隐藏服务进行分析，有的工作从隐藏服务协议漏洞分析角度来实现隐藏服务的去匿名化。然而由于这些方法通常需要部署洋葱路由作为前提，因此存在一定的实现难度。由于Tor中混淆技术的进步，一些工作中的方法不再适用于最新版本3的Tor场景。除此之外，在网络的骨干节点或网关处采用人工智能方法对访问Tor隐藏服务的流量进行识别与拦截已经成为一种保障网络安全、应对Tor隐藏服务的有效方法。
[0004]网络流量识别是一种有效的增强网络可控性...

【技术保护点】

【技术特征摘要】
1.一种基于特征选择的Tor隐藏服务流量识别方法，其特征在于，所述方法包括以下2个步骤：S1：Tor隐藏服务流量采集与数据预处理；S2：Tor隐藏服务流量的识别；其中，步骤S1分为3个步骤，S11：构建基于云服务器的流量采集系统、S12：Tor隐藏服务流量采集、S13：Tor隐藏服务流量数据预处理；步骤S2分为3个步骤：S21：构建Tor隐藏服务流量的特征全集、S22：设计特征选择算法、S23：Tor隐藏服务流量识别。2.根据权利要求1所述的基于特征选择的Tor隐藏服务流量识别方法，其特征在于，S11：构建基于云服务器的流量采集系统，具体过程分为4个步骤：(1)构建流量生成端,具体步骤如下：a)安装脚本控制浏览器自动地、按顺序地对隐藏服务域名进行访问；b)根据浏览器的访问状态，向流量采集端发送访问状态和操作码；(2)部署流量采集端，具体步骤如下：a)选定一台位于特定地理位置的云服务器作为Tor代理；后续，可根据流量采集需求，更换位于不同地理位置的云服务器；b)安装Tor代理程序，提供访问Tor网络的服务；c)安装脚本接收流量生成端的访问状态和操作码，并执行操作；(3)选定网站访问端，具体步骤如下：a)安装脚本，从域名汇总站点收集大量隐藏服务域名；b)从上一步搜索结果中根据域名长度筛选56字符的版本3域名；c)通过流量采集系统检查域名的有效性与域名内容，去除重复域名；d)将去重后的所有隐藏服务域名作为访问目标；(4)连通性测试：按照步骤(1)～(3)在完成构建流量生成端、部署流量采集端、选定网站访问端之后，测试隐藏服务流量采集系统的连通性，若流量生成端的浏览器能够连接到流量采集端的Tor代理，并成功访问隐藏服务，则说明流量采集系统构建完成。3.根据权利要求1所述的基于特征选择的Tor隐藏服务流量识别方法，其特征在于，S12：Tor隐藏服务流量采集，具体分为3个步骤：运行脚本生成访问流量、运行脚本自动采集流量、捕获隐藏服务流量并存储；(1)运行脚本生成访问流量，算法1展示了流量生成端脚本的流程，具体步骤如下：a)模拟真实用户使用浏览器时的各种行为，如输入域名、点击、搜索等操作来访问隐藏服务，实现流量的自动生成；b)根据访问状态(域名、访问时间)，向流量采集端发送访问状态和操作码(START、STOP、EXIT)；
(2)运行脚本自动采集流量，算法2展示了流量采集端脚本的流程，具体步骤如下：a)接收流量生成端的访问状态和操作码；b)根据操作码选择开始采集、停止采集并存储、退出程序三种操作；c)存储的文件名以访问状态中“域名+访问时间”的格式命名；(3)捕获隐藏服务流量并存储，为了保证采集到的流量的有效性，记录流量采集端Tor代理软件使用的端口号并以这个端口号为目标进行流量采集，为了方便后续处理，记录访问每个隐藏服务时产生的HTTP状态码，用于S13步骤的数据预处理；问每个隐藏服务时产生的HTTP状态码，用于S13步骤的数据预处理；4.根据权利要求1所述的基于特征选择的Tor隐藏服务流量识别方法，其特征在于，S13：Tor隐藏服务流量数据预处理，为了保证流量的有效性，经过步骤S12获取到的原始流量需要经过预处理步骤才能作为有效的数据集用于识别，具体分为3个步骤：流量过滤、设置标签、欠采样；(1)流量过滤，原始流量中可能存在背景流量或无效流量影响模型训练，因此需要对流量进行过滤，具体分为3个步骤：a)将原始流量数据根据五元组(源IP地址、源端口号、目的IP地址、目的端口号、传输层协议)划分为不同的流，五元组的源IP地址与目的IP地址、源端口号与目的端口号互换后相同的仍认为属于相同的五元组；b)根据流所属五元组的IP地址进行判断，将服务器其他应用产生的流量标记为无关背景流量并过滤掉；c)根据每个流量样本访问时返回的HTTP状态码记录进行判断，将所有返回4xx、5xx状态码的流量与超时无法成功加载页面的流量标记为无效流量并过滤掉；(2)设置标签，有监督机器学习需要样本具有正确的标签才能完成训练，因此需要为采
集的流量数据设置标签，具体分为3个步骤：a)根据S11步骤(3)中获取到的域名数量，设置实验中所使用的隐藏服务域名数目n；b)按照首字母顺序将0至n
‑
1的标签与实验中的每个隐藏服务建立对应关系；c)根据S12的步骤(2)中储存文件的文件名得到流量样本的域名，并根据流量样本的域名与对应关系将S13步骤(1)中所得的每个样本设置正确的标签；(3)欠采样，由于Tor隐藏服务不稳定，各个域名所采集的样本数目存在差异，因此需要欠采样来平衡各个域名的样本数目，具体分为3个步骤：a)统计n个隐藏服务域名各自的样本数量，设置C为每个域名所需的最小样本数量；b)选择样本数目大于C的所有隐藏服务类别，并计算这些隐藏服务类别中样本数目最小的数目C
min
；c)对于样本数目大于C
min
的隐...

【专利技术属性】
技术研发人员：许昱玮，黄信旭，杨华斌，汪磊，胡晓艳，程光，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人