Tor匿名流量识别方法、装置、电子设备和程序产品制造方法及图纸

技术编号:39182748 阅读:5 留言:0更新日期:2023-10-27 08:30
本申请涉及流量识别领域,提供一种Tor匿名流量识别方法、装置、电子设备和程序产品。所述方法包括:提取数据包的训练特征,训练特征包括通信端口、数据包长度熵、信元长度频率、零数据报文频率和转发时延;基于训练特征,通过决策树分类法训练流量识别模型,获取流量识别结果,其中,决策树分类法包括:根据训练特征识别潜在Tor匿名流量;基于潜在Tor匿名流量,根据TLS指纹数据识别流量类别。本申请实施例可降低流量识别难度高、解析工作量和内存消耗,提高流量识别速度。提高流量识别速度。提高流量识别速度。

【技术实现步骤摘要】
Tor匿名流量识别方法、装置、电子设备和程序产品


[0001]本申请涉及流量识别
,具体涉及一种Tor匿名流量识别方法、装置、电子设备和程序产品。

技术介绍

[0002]目前,Tor(The second generation Onion Router)保护了用户的上网隐私,但同时也沦为不法分子进行网络犯罪的工具。Tor通过部署多种传输层插件(Pluggable Transport,PT)来对Tor匿名流量进行混淆或伪装,从而增大流量识别的难度,其中FTE(Format

Transforming Encryption)是Tor官方的默认插件之一。
[0003]现有技术中,针对流量的识别技术主要包括以下两种技术:
[0004]1、基于端口的流量识别
[0005]基于端口的流量识别是该方法通过知名的TCP或UDP端口号来推测流量的类型,如HTTP对应80端口,FTP对应20端口等。只要对端口的流量进行监测,就能识别流量的具体内容。但是随着互联网内容的急剧扩大,越来越多的应用及内容使用随机端口进行传输,基于端口的流量识别越发困难。
[0006]2、基于DPI的流量识别
[0007]基于DPI(Deep Packet Inspection,深度检测包技术)的流量识别,基于流量载荷具有可见性和流量载荷可以被解析来实现流量识别。但仍存在如下挑战:一是大量应用开始采用加密来混淆流量内容;二是对数据包载荷的解析本身就是对用户隐私的侵犯;三是随着大量应用的出现及不断更新,流量识别第三方需要频繁地解析应用数据包载荷的语法,工作量很大,需要巨大的计算开销和内存消耗。

技术实现思路

[0008]本申请实施例提供一种Tor匿名流量识别方法、装置、电子设备和程序产品,用以解决流量识别难度高、解析工作量大和内存消耗大的技术问题,提高识别速度。
[0009]第一方面,本申请实施例提供一种Tor匿名流量识别方法,包括:
[0010]提取数据包的训练特征,所述训练特征包括通信端口、数据包长度熵、信元长度频率、零数据报文频率和转发时延;
[0011]基于所述训练特征,通过决策树分类法训练流量识别模型,获取流量识别结果,其中,所述决策树分类法包括:
[0012]根据所述训练特征识别潜在Tor匿名流量;
[0013]基于所述潜在Tor匿名流量,根据TLS指纹数据识别流量类别。
[0014]在一个实施例中,所述根据所述训练特征识别潜在Tor匿名流,包括:
[0015]根据所述数据包的训练特征,构建并训练决策树;
[0016]将待识别流量输入所述决策树,判断待识别流量的源端口或目的端口是否在Tor匿名流量的端口范围内,若在,则判断为潜在Tor匿名流量,若不在,则判断为其他流量类
型。
[0017]在一个实施例中,所述基于所述潜在Tor匿名流,根据TLS指纹数据识别Tor流量类别,包括:
[0018]根据Client Hello报文,判断待识别流量是否为TLS流量或SSLV3流量,若是,则执行下一步,若否,则判断为其他类型流量;
[0019]判断Server Hello报文中密码套件,若符合对应的密码套件,则执行下一步,若不符合,则判断为其他类型流量;
[0020]提取Certificate报文信息,所述Certificate报文信息包括证书序列号、颁发机构、拥有者名称、起效时间和失效时间;
[0021]判断所述颁发机构和拥有者名称是否满足对应结构,若满足,则执行下一步,若不满足,则判断为其他类型流量;
[0022]将所述起效时间和失效时间进行数值类型转换,并判断证书序列号与起效时间是否相等,若是,则执行下一步,若否,则判断为其他类型流量;
[0023]判断所述失效时间和起效时间的差值是否等于时间阈值,且所述起效时间与当前时间差值的绝对值小于门限值,若是,则判断为Tor匿名流量,若否,则判断为其他流量类型。
[0024]在一个实施例中,所述密码套件包括:
[0025]DHE_RSA_WITH_AES_256_SHA、
[0026]DHE_RSA_WITH_AES_128_SHA、
[0027]EDH_RSA_DES_192_CBC3_SHA的一种。
[0028]第二方面,本申请实施例提供一种Tor匿名流量识别装置,包括:
[0029]采集模块,用于连接网络,并通过高速接口通道捕获流量数据;
[0030]接口模块,用于连接采集模块,并提供通信接口进行数据交互;
[0031]分类模块,用于接收流量数据,识别流量数据中的Tor匿名流量,并进行Tor匿名流量应用分类处理。
[0032]在一个实施例中,所述分类模块,包括:
[0033]Tor流量识别子系统,用于提取数据包的训练特征,并基于所述训练特征,通过决策树分类法训练流量识别模型,获取流量识别结果;
[0034]Tor流量应用分类子系统,用于对Tor流量识别子系统中识别的Tor匿名流量进行应用分类,获取应用分类结果。
[0035]在一个实施例中,所述Tor流量识别子系统,包括:
[0036]特征提取单元,用于提取数据包的训练特征,所述训练特征包括通信端口、数据包长度熵、信元长度频率、零数据报文频率和转发时延;
[0037]训练单元,用于基于所述训练特征,通过决策树分类法训练流量识别模型;
[0038]决策树分类单元,用于通过流量识别模型中的决策树分类法获取流量识别结果,其中,所述决策树分类法包括:
[0039]根据所述训练特征识别潜在Tor匿名流量;
[0040]基于所述潜在Tor匿名流量,根据TLS指纹数据识别流量类别。
[0041]第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的
存储器,所述处理器执行所述程序时实现第一方面所述的Tor匿名流量识别方法的步骤。
[0042]第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的Tor匿名流量识别方法的步骤。
[0043]本申请实施例提供的Tor匿名流量识别方法、装置、电子设备和程序产品,通过提取训练特征,并根据训练特征训练流量识别模型,把流量识别方法进行封装,形成可使用的模型,可有效获取流量识别结果,且便于集成于其他系统中;流量识别模型中,先通过训练特征构建决策树,识别潜在Tor匿名流量,然后基于潜在Tor匿名流量,根据TLS指纹数据进一步识别流量类型,提高识别速度,降低流量识别难度和数据包解析工作量,流量识别模型构建后可重复使用,避免模型的重复构建,降低内存消耗。
附图说明
[0044]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种Tor匿名流量识别方法,其特征在于,包括:提取数据包的训练特征,所述训练特征包括通信端口、数据包长度熵、信元长度频率、零数据报文频率和转发时延;基于所述训练特征,通过决策树分类法训练流量识别模型,获取流量识别结果,其中,所述决策树分类法包括:根据所述训练特征识别潜在Tor匿名流量;基于所述潜在Tor匿名流量,根据TLS指纹数据识别流量类别。2.根据权利要求1所述的Tor匿名流量识别方法,其特征在于,所述根据所述训练特征识别潜在Tor匿名流,包括:根据所述数据包的训练特征,构建并训练决策树;将待识别流量输入所述决策树,判断待识别流量的源端口或目的端口是否在Tor匿名流量的端口范围内,若在,则判断为潜在Tor匿名流,若不在,则判断为其他流量类型。3.根据权利要求1所述的Tor匿名流量识别方法,其特征在于,所述基于所述潜在Tor匿名流,根据TLS指纹数据识别Tor流量类别,包括:根据Client Hello报文,判断待识别流量是否为TLS流量或SSLV3流量,若是,则执行下一步,若否,则判断为其他类型流量;判断Server Hello报文中密码套件,若符合对应的密码套件,则执行下一步,若不符合,则判断为其他类型流量;提取Certificate报文信息,所述Certificate报文信息包括证书序列号、颁发机构、拥有者名称、起效时间和失效时间;判断所述颁发机构和拥有者名称是否满足对应结构,若满足,则执行下一步,若不满足,则判断为其他类型流量;将所述起效时间和失效时间进行数值类型转换,并判断证书序列号与起效时间是否相等,若是,则执行下一步,若否,则判断为其他类型流量;判断所述失效时间和起效时间的差值是否等于时间阈值,且所述起效时间与当前时间差值的绝对值小于门限值,若是,则判断为Tor匿名流量,若否,则判断为其他流量类型。4.根据权利要求3所述的T...

【专利技术属性】
技术研发人员:卢山
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1