一种基于机器学习的Tor流量识别方法及装置制造方法及图纸

技术编号:22692142 阅读:57 留言:0更新日期:2019-11-30 05:26
本发明专利技术公开了一种基于机器学习的Tor流量识别方法,包括:获取待识别数据流量中各个待识别数据包的第一长度;依据所述第一长度,将所述各个待识别数据包分配给采用预设方法得到的各个目标分组长度范围内,确定待输入特征值;将所述待输入特征值发送给Tor流量识别模型进行分析,确定所述待识别数据流量是否属于Tor流量。上述方法中,通过获取待识别数据流量中各个待识别数据包的第一长度,依据第一长度,将各个待识别数据包分配给采用预设方法得到的各个目标分组长度范围内,确定待输入特征值,依据待输入特征值,确定待识别数据流量是否属于Tor流量,当待识别数据流量为Tor流量时,进行定向跟踪处理,为打击此类网络犯罪提供辅助。

A method and device of tor flow identification based on machine learning

The invention discloses a tor flow recognition method based on machine learning, which includes: obtaining the first length of each data packet to be recognized in the data flow to be recognized; according to the first length, allocating each data packet to be recognized to the range of each target packet length obtained by the preset method to determine the characteristic value to be input; sending the characteristic value to tor The flow identification model is analyzed to determine whether the data flow to be identified belongs to tor flow. In the above method, by acquiring the first length of each packet to be identified in the data flow to be identified, according to the first length, each packet to be identified is allocated to the range of each target group length obtained by the preset method, and the characteristic value to be input is determined. According to the characteristic value to be input, whether the data flow to be identified belongs to tor flow is determined. When the data flow to be identified is t In the case of or traffic, directional tracking is carried out to provide assistance for combating such cyber crimes.

【技术实现步骤摘要】
一种基于机器学习的Tor流量识别方法及装置
本专利技术涉及计算机网络安全
,尤其涉及一种基于机器学习的Tor流量识别方法及装置。
技术介绍
暗网是一种特殊的网络,普通浏览器无法直接访问到。暗网处于深网中最隐私的部分,需要通过特殊的加密通道才能访问到,只能通过洋葱路由Tor(TheOnionRouting)或隐形互联网项目I2P(InvisibleInternetProject)等匿名网络才能访问,其中Tor网络最为著名。Tor网络属于暗网中的一种,由于Tor网络的特殊加密方式、洋葱路由算法、定时自动更换路由等特点,使得Tor网络攻击难以被追踪溯源。Tor网络设计之初是为了保护隐私,避免人们在互联网上被追踪,但是却被大量应用于非法应用,导致Tor网络通常跟“个人信息”、“黑市”、“勒索”等词一起出现,Tor网络充斥着各种网络犯罪。所以亟需提供一种识别Tor流量方法进而定向跟踪处理,为打击此类网络犯罪提供辅助。
技术实现思路
有鉴于此,本专利技术提供了一种基于机器学习的Tor流量识别方法及装置,用以识别Tor流量进而定向跟踪处理,为打击此类网络犯罪提供辅助。具体方案如下:一种基于机器学习的Tor流量识别方法,包括:获取待识别数据流量中各个待识别数据包的第一长度;依据所述第一长度,将所述各个待识别数据包分配给采用预设方法得到的各个目标分组长度范围,确定待输入特征值;将所述待输入特征值发送给Tor流量识别模型进行分析,确定所述待识别数据流量是否属于Tor流量。上述的方法,可选的,采用预设方法得到的各个分组长度范围包括:获取通过预设访问方式访问目标网站得到的训练数据流量中各个训练数据包的第二长度;依据所述第二长度,将所述各个训练数据包配给各个初始分组长度范围,确定训练特征值;将所述训练特征值发送给初始Tor流量识别模型进行训练;当输出结果的误差小于预设的误差阈值时,确定Tor流量识别模型的目标分组长度范围。上述的方法,可选的,还包括:当所述输出结果的误差范围大于预设的误差阈值时,对所述初始Tor流量识别模型中的算法参数和所述初始分组长度范围进行调整。上述的方法,可选的,所述预设访问方式包括:通过Firefox浏览器访问,通过Meek方式的Tor网络访问和通过配置ShadowSocks代理方式的Tor网络访问。上述的方法,可选的,还包括:对所述目标网站进行过滤,过滤掉其中无法访问的网站。上述的方法,可选的,依据所述第一长度,将所述各个待识别数据包分配给采用预设方法得到的各个目标分组长度范围,确定待输入特征值,包括:将每一个待识别数据包依据其对应的第一长度分配给对应的目标分组长度范围;统计所述各个目标分组长度范围中待识别数据包的数量,将所述数量作为所述待输入特征值。一种基于机器学习的Tor流量识别装置,包括:获取模块,用于获取待识别数据流量中各个待识别数据包的第一长度;分配与确定模块,用于依据所述第一长度,将所述各个待识别数据包分配给采用预设方法得到的各个目标分组长度范围,确定待输入特征值;分析与确定模块,用于将所述待输入特征值发送给Tor流量识别模型进行分析,确定所述待识别数据流量是否属于Tor流量。上述的装置,可选的,所述分配与确定模块中采用预设方法得到的各个分组长度范围包括:获取单元,用于获取通过预设访问方式访问目标网站得到的训练数据流量中各个训练数据包的第二长度;分配与确定单元,用于依据所述第二长度,将所述各个训练数据包配给各个初始分组长度范围,确定训练特征值;训练单元,用于将所述训练特征值发送给初始Tor流量识别模型进行训练;确定单元,用于当输出结果的误差小于预设的误差阈值时,确定Tor流量识别模型的目标分组长度范围。上述的装置,可选的,还包括:调整单元,用于当所述输出结果的误差范围大于预设的误差阈值时,对所述初始Tor流量识别模型中的算法参数和所述初始分组长度范围进行调整。上述的装置,可选的,所述分配与确定模块包括:分配单元,用于将每一个待识别数据包依据其对应的第一长度分配给对应的目标分组长度范围;统计确定单元,用于统计所述各个目标分组长度范围中待识别数据包的数量,将所述数量作为所述待输入特征值。与现有技术相比,本专利技术包括以下优点:本专利技术公开了一种基于机器学习的Tor流量识别方法,包括:获取待识别数据流量中各个待识别数据包的第一长度;依据所述第一长度,将所述各个待识别数据包分配给采用预设方法得到的各个目标分组长度范围内,确定待输入特征值;将所述待输入特征值发送给Tor流量识别模型进行分析,确定所述待识别数据流量是否属于Tor流量。上述方法中,通过获取待识别数据流量中各个待识别数据包的第一长度,依据第一长度,将各个待识别数据包分配给采用预设方法得到的各个目标分组长度范围内,确定待输入特征值,依据待输入特征值,确定待识别数据流量是否属于Tor流量,当待识别数据流量为Tor流量时,进行定向跟踪处理,为打击此类网络犯罪提供辅助。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例公开的一种基于机器学习的Tor流量识别方法流程图;图2为本申请实施例公开的一种基于机器学习的Tor流量识别方法又一流程图;图3为本申请实施例公开的一种基于机器学习的Tor流量识别装置结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本专利技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本专利技术的精神或范围的情况下,在其它实施例中实现。因此,本专利技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。本专利技术公开了一种基于机器学习的Tor流量识别方法及装置,应用于对暗网中Tor流量的识别过程中,其中,暗网是一种特殊的网络,普通浏览器无法直接访问到。如果把在搜索引擎里面可以直接搜索到的内容称为明网,无论搜索引擎收录了多少网站,这些也只是整个网络世界的冰山一角。明网以外的更多内容处于深网中,即无法直接访问到,可能需要特殊权限、注册、付费等方式才能访问到的网站。暗网处于深网中最隐私的部分,需要通过特殊的加密通道才能访问到本文档来自技高网...

【技术保护点】
1.一种基于机器学习的Tor流量识别方法,其特征在于,包括:/n获取待识别数据流量中各个待识别数据包的第一长度;/n依据所述第一长度,将所述各个待识别数据包分配给采用预设方法得到的各个目标分组长度范围,确定待输入特征值;/n将所述待输入特征值发送给Tor流量识别模型进行分析,确定所述待识别数据流量是否属于Tor流量。/n

【技术特征摘要】
1.一种基于机器学习的Tor流量识别方法,其特征在于,包括:
获取待识别数据流量中各个待识别数据包的第一长度;
依据所述第一长度,将所述各个待识别数据包分配给采用预设方法得到的各个目标分组长度范围,确定待输入特征值;
将所述待输入特征值发送给Tor流量识别模型进行分析,确定所述待识别数据流量是否属于Tor流量。


2.根据权利要求1所述的方法,其特征在于,采用预设方法得到的各个分组长度范围包括:
获取通过预设访问方式访问目标网站得到的训练数据流量中各个训练数据包的第二长度;
依据所述第二长度,将所述各个训练数据包配给各个初始分组长度范围,确定训练特征值;
将所述训练特征值发送给初始Tor流量识别模型进行训练;
当输出结果的误差小于预设的误差阈值时,确定Tor流量识别模型的目标分组长度范围。


3.根据权利要求2所述的方法,其特征在于,还包括:
当所述输出结果的误差范围大于预设的误差阈值时,对所述初始Tor流量识别模型中的算法参数和所述初始分组长度范围进行调整。


4.根据权利要求2所述的方法,其特征在于,所述预设访问方式包括:通过Firefox浏览器访问,通过Meek方式的Tor网络访问和通过配置ShadowSocks代理方式的Tor网络访问。


5.根据权利要求2所述的方法,其特征在于,还包括:
对所述目标网站进行过滤,过滤掉其中无法访问的网站。


6.根据权利要求1所述的方法,其特征在于,依据所述第一长度,将所述各个待识别数据包分配给采用预设方法得到的各个目标分组长度范围,确定待输入特征值,包括:
将每一个待识别数据包依据其对应的第一长度分配给对应...

【专利技术属性】
技术研发人员:王忠儒姜海
申请(专利权)人:北京丁牛科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1