一种基于决策树的网络设备类型识别方法及系统技术方案

技术编号:19859046 阅读:49 留言:0更新日期:2018-12-22 12:02
本发明专利技术涉及一种基于决策树的网络设备类型识别方法及系统,属于网络安全技术领域。所述方法包括采集网络设备数据流量,对网络流量进行预处理,提取流量中的HTTP数据包,将文本类型的特征数据向量化,利用特征向量进行决策树‑C45分类,最终识别出设备的类型;本发明专利技术能够基于网络流量采用决策树‑C45算法识别网络设备类型。该方法是基于被动方法去探测未知设备的类型,不会被入侵检测系统捕获,同时对于未知设备的类型也能识别,并能把未知设备的类型补充到系统中,提高泛化能力。

【技术实现步骤摘要】
一种基于决策树的网络设备类型识别方法及系统
本专利技术涉及网络安全与机器学习
,更具体地说,涉及一种基于决策树的网络设备类型识别方法及系统。
技术介绍
随着大数据、物联网、IoT(InternetofThings)技术以及各设备间通信协议的发展,网络空间中的终端设备已越来越多。大量无线路由器、网络打印机、VoIP网络电话、网络数字视频摄像机和部分工控设备等都具有了公网IP地址,这些设备和传统的主机、服务器和路由器共同构成了当前的网络环境。据统计,除普通网站和主机外,接入网络空间的终端设备数量已超过500万,大类超过20种。当前网络空间中终端设备的规模十分庞大、类型十分复杂,同时带来的安全隐患也是前所未有的。已有的许多识别方法所针对的识别对象仅为传统的Web服务器软件,如Apache、IIS、Nginx等,而如今网络空间中的终端设备数量繁多、种类复杂多样,无线路由器、网络打印机、VoIP网络电话、网络数字视频摄像机等终端设备系统实现各不相同,传统的识别方法并不能很好的适用于当前的网络环境。因此,需要对传统识别方法进行改进,以扩展适用识别对象范围,达到利用传统识别方法来对新型终端设备的识别。此外,网络空间中的各种终端设备在日常生活、办公中扮演了重要角色,网络指纹探测的同时需要保证终端设备的稳定运行。然而,传统的识别方法在探测网络指纹时往往需要发送许多无意义的探测报文,或者使用非正常的畸形请求来试探识别对象,此类识别方法容易对识别对象造成缓冲区溢出,形成拒绝服务,结果导致终端设备无法正常运行。因此,识别终端设备时所使用的探测报文,应尽可能的与正常请求相似,确保探测过程安全可靠,同时不会引发防火墙等设备的异常流量报警,或者直接被动的探测数据流量完成对设备类型的识别。
技术实现思路
针对现有技术中存在的新出现的各种各样的设备待识别和已存的识别方法容易被探测入侵行为,本专利技术提供了一种基于决策树的网络设备类型识别方法。它基于被动的探测未知设备的类型,不会被入侵检测系统捕获,同时对于未知设备的类型也能识别,并能把未知设备的类型补充到系统中,提高泛化能力。本专利技术的目的通过以下技术方案实现:一种基于决策树的网络设备类型识别方法,包括:S1样本采集步骤:抓取未知设备的网络流量,获得未知设备的网络协议的响应报文信息;S2数据预处理步骤:对响应报文信息进行预处理,提取出未知设备的HTTP数据包;S3特征提取步骤:提取HTTP数据包中能够反映终端设备特征的信息作为样本特征,将文本类型的特征数据向量化;提取过滤得到的HTTP数据包中能够反映终端设备特性的信息作为样本特征,去除冗余信息,以便降低计算复杂度,提到识别效率;对提取后的样本特征进行预处理,通过统计分析的方法将文本类型的特征数据向量化;对于特征的向量化过程包括使用TF-IDF方法建立单词向量空间,以及通过潜语义分析方法LSA挖掘协议报文内部潜在的语义特征。所述S3特征提取步骤还包括:S31未知设备特征数据向量化:提取未知设备的HTTP数据包中的特征信息,将文本类型的特征数据向量化;S32已知设备特征数据向量化:得到已知设备的HTTP数据包,将HTTP数据包特征信息向量化;向已知的设备类型的网络设备分别发送HTTP-GET请求,得到HTTP数据包,重复步骤3,提取HTTP数据包中的特征信息,将文本类型的特征数据向量化。这些类型已知的设备可以通过oshada去探测,oshada是一款收费的网络设备搜索系统。S4模型生成步骤:将S32步骤中已知设备向量化后的特征信息,通过决策树算法生成决策树;S5分类步骤:将S31步骤中得到的未知设备向量化后的特征信息,通过S4模型生成步骤中生成的决策树进行分类,所述分类包括树的遍历以及树节点的匹配过程。首先判断决策树某节点是否为叶子节点,若为叶子节点说明当前节点为类型信息,将该类型判定为设备对应的类型,若不是叶子节点,获取设备的相应的属性项,然后对比两属性项的属性值,根据对比结果可以决定选择决策树节点的哪条分支,然后通过相应分支进入到下一节点继续上面的步骤,直到匹配结束。优选地,S1样本采集步骤中使用WINPCAP直接从物理接口抓取数据包,数据包保存为cap文件格式。首先用WINPCAP直接从物理接口抓取数据包,数据包保存为cap文件格式;然后使用WINPCAP从脱机堆中读取数据包,即用WINPCAP的函数pcap_open_offline()打开存储的文件。优选地,S2数据预处理步骤中所述预处理包括使用WINPCAP处理捕获的cap文件和设置过滤规则。WINPCAP提供pcap_compile()和pcap_setfilter()这两个函数来过滤数据包,设置好精确的过滤表达式后,再配合这两个函数使用可以高效地实现过滤数据包的功能,本专利技术中只关心HTTP数据包,只要捕捉HTTP数据包即可,所以将过滤器规则设置成“http”的表达式即可。优选地,S4模型生成步骤中通过决策树-c45算法训练HTTP数据包特征信息,生成决策树。一种基于决策树的网络设备类型识别系统,包括:样本采集模块,用于对已知和未知的网络物理端口抓取网络数据包,获得网络协议的响应报文信息;数据预处理模块,用于分析抓取的网络数据包,通过设置过滤规则,得到HTTP数据包;特征提取模块,用于提取HTTP数据包中能够反映终端设备特征的信息作为样本特征,将文本类型的特征数据向量化;所述特征提取模块包括:未知设备特征数据向量化单元,用于提取未知设备的HTTP数据包中的特征信息,将文本类型的特征数据向量化;已知设备特征数据向量化单元,用于得到已知设备的HTTP数据包,将HTTP数据包特征信息向量化;模型生成模块,用于生成决策树;分类模块,用于对未知设备进行分类。优选地,所述样本采集模块包括:数据抓取单元,用于使用WINPCAP直接从物理接口抓取数据包,数据包保存为cap文件格式。优选地,所述数据预处理模块包括:预处理单元,用于使用WINPCAP直接从物理接口抓取数据包,数据包保存为cap文件格式。优选地,所述模型生成模块包括:决策树生成单元,用于通过决策树-c45算法训练HTTP数据包特征信息,生成决策树。相比于现有技术,本专利技术的优点在于:(1)现有的网络设备识别技术大多依赖于主动的方法扫描网络、人工提取设备指纹并通过正则匹配的方式进行设备识别过程,这样的识别方式不仅费时费力,识别正确率得不到保证,同时对于发现和识别未知设备也无能为力,还容易被发现。(2)本专利技术是基于被动的方法识别网络设备的类型,只是单纯的通过网络流量数据包去识别网络设备的类型,不会被入侵检测系统捕获。(3)本专利技术通过自动机器学习的方法,学习已知设备的特征信息生成决策树,再用决策树去判断未知设备的类型,增加了可识别设备的种类,并能把未知设备的类型补充到系统中,提高泛化能力。附图说明图1为本专利技术的整体过程流程图;图2为本专利技术的系统架构图。具体实施方式下面结合说明书附图和具体的实施例,对本专利技术作详细描述。实施例1根据图1给出的整体过程流程图,本实施例的具体实施方式如下:1.已知设备数据包处理(1)样本采集:通过一款收费的网络设备搜索系统oshada在网络中探测网络设备的类型以及IP地址,分别向已知设备发送HTTP-GET本文档来自技高网
...

【技术保护点】
1.一种基于决策树的网络设备类型识别方法,其特征在于,其步骤包括:S1样本采集步骤:抓取未知设备的网络流量,获得未知设备的网络协议的响应报文信息;S2数据预处理步骤:对响应报文信息进行预处理,提取出未知设备的HTTP数据包;S3特征提取步骤:提取HTTP数据包中能够反映终端设备特征的信息作为样本特征,将文本类型的特征数据向量化;所述S3特征提取步骤还包括:S31未知设备特征数据向量化:提取未知设备的HTTP数据包中的特征信息,将文本类型的特征数据向量化;S32已知设备特征数据向量化:得到已知设备的HTTP数据包,将HTTP数据包特征信息向量化;S4模型生成步骤:将S32步骤中已知设备向量化后的特征信息,通过决策树算法生成决策树;S5分类步骤:将S31步骤中得到的未知设备向量化后的特征信息,通过S4模型生成步骤中生成的决策树进行分类,所述分类包括树的遍历以及树节点的匹配过程。

【技术特征摘要】
1.一种基于决策树的网络设备类型识别方法,其特征在于,其步骤包括:S1样本采集步骤:抓取未知设备的网络流量,获得未知设备的网络协议的响应报文信息;S2数据预处理步骤:对响应报文信息进行预处理,提取出未知设备的HTTP数据包;S3特征提取步骤:提取HTTP数据包中能够反映终端设备特征的信息作为样本特征,将文本类型的特征数据向量化;所述S3特征提取步骤还包括:S31未知设备特征数据向量化:提取未知设备的HTTP数据包中的特征信息,将文本类型的特征数据向量化;S32已知设备特征数据向量化:得到已知设备的HTTP数据包,将HTTP数据包特征信息向量化;S4模型生成步骤:将S32步骤中已知设备向量化后的特征信息,通过决策树算法生成决策树;S5分类步骤:将S31步骤中得到的未知设备向量化后的特征信息,通过S4模型生成步骤中生成的决策树进行分类,所述分类包括树的遍历以及树节点的匹配过程。2.根据权利要求1所述的基于决策树的网络设备类型识别方法,其特在于:S1样本采集步骤中使用WINPCAP直接从物理接口抓取数据包,数据包保存为cap文件格式。3.根据权利要求1所述的基于决策树的网络设备类型识别方法,其特在于:S2数据预处理步骤中所述预处理包括使用WINPCAP处理捕获的cap文件和设置过滤规则。4.根据权利要求1所述的基于决策树的网络设备类型识别方法,其特在于,S4模型生成步骤中通过决策树-c4...

【专利技术属性】
技术研发人员:陈丹伟刘翔元刘尚东
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1