基于载荷特征和统计特征的Shodan流量识别方法技术

技术编号:24333843 阅读:50 留言:0更新日期:2020-05-29 21:11
本发明专利技术涉及一种基于载荷特征和统计特征的Shodan流量识别方法,包括步骤:在网络中设置交换机流量镜像端口,部署嗅探器进行流量监听;嗅探器对监听到的流量以数据包窗口的方式进行解析,分别提取载荷特征和统计特征;利用嗅探器的解析结果,对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别,完成Shodan流量和非Shodan流量的分类。通过本发明专利技术,能够通过功能码序列特征准确反映流量交互的先后次序,对于扫描类流量的识别具有极高的识别率;本发明专利技术分别构建网络层和应用层识别模型,可从多个维度、侧面去分析流量特征,从而扩大了传统流量检测的范围,提高流量识别的准确率。

Shodan flow identification method based on load characteristics and statistical characteristics

【技术实现步骤摘要】
基于载荷特征和统计特征的Shodan流量识别方法
本专利技术涉及工业控制系统安全
,更具体地说,涉及一种基于载荷特征和统计特征的Shodan流量识别方法。
技术介绍
工业控制系统广泛应用于油气管道、供水系统、电网、核电站等关键基础设施的重要领域。随着工业信息化的快速发展,给工业控制系统带来了更多的互联网因素,大量的工控设备被接入到互联网中,因此传统网络攻击也逐渐渗透到工业控制领域,对工控系统造成严重威胁。Shodan搜索引擎的出现使得这种威胁得到放大。由于能够识别和索引面向互联网的工业控制系统组件,Shodan搜索引擎受到了极大的关注。2009年,程序员约翰·马瑟利(JohnMatherly)推出了Shodan。它是全球第一个全网设备搜索引擎,带有图形用户界面,可以识别面向互联网的设备。不同于传统搜索引擎以网页内容索引为主,Shodan可以识别具有可路由IP地址的设备,包括计算机、打印机、网络摄像头和工业控制设备等。Shodan每周7天、每天24小时都在运行,每月收集大约5亿台联网设备和服务的信息。它将收集到的设备信息存储在一个可搜索的数据库中,该数据库可通过web接口或ShodanAPI进行访问。用户可以使用一系列过滤器查询Shodan数据库,这些过滤器包括国家、主机名、网络信息、操作系统和端口等。Shodan搜索引擎的设计目的是搜索互联网,并试图识别和索引连接的设备。Shodan已经识别出数万个与工业控制系统相关的面向互联网的设备。识别工控相关设备的能力引起了重大的安全问题。美国国土安全部发布了一份关于Shodan的报告,详细说明了工业控制设备暴露在互联网下的风险。CNNMoney的一篇文章写道,虽然目前人们都认为谷歌是最强劲的搜索引擎,但Shodan才是互联网上最可怕的搜索引擎。事实上,Shodan为攻击者提供了一个强大的侦察工具。攻击者通过Shodan可以很方便的发现暴露在互联网上的工业控制设备以及与该设备相关的IP地址,开放的服务和存在的漏洞等信息。进而通过这些信息发动攻击,对工控系统造成严重破坏。互联网流量识别方法主要分为三种:基于端口的识别方法、深度包检测(DPI)识别方法和基于机器学习的识别方法。基于端口的流量识别根据各种协议和各种网络应用使用特定端口对网络流量进行识别。例如基于HTTP协议的Web应用,使用的服务器端口是80,基于FTP协议的文件传输应用则是使用20与21端口,SSH远程登录协议使用22端口,telnet远程终端使用23端口等。深度包检测识别通过对目标流量进行协议或者应用的特征分析,提取数据包负载中所携带的特征码,将其应用到流量的识别当中。基于机器学习的流量识别通过从网络流量中抽取一系列独立于荷载的统计属性,然后采用机器学习的方法训练出一个识别模型,从而进行下一步的流量识别。对于Shodan流量的识别来说,基于端口号的流量识别方法并不适用。在深度包检测识别中,Grimaudo等人基于DPI技术,通过设计一个分级分类器将流量正确地分类为20多个细粒度的类,构建了一个阶层式自学习的分类模型,这种集成的识别结构充分利用了传统DPI技术的准确性,并结合其他技术在很大程度上弥补了DPI技术的不足。北京理工大学付文亮等应用轻量级的DPI技术,基于FPGA实现了一种叫RocketTC的实时识别技术,这种基于硬件的技术在高速网络环境下性能优势尤为明显。在基于机器学习的流量识别中,Moore等人提出了249个统计特征作为流量识别的分类依据,后续的研究在这些特征的基础上使用不同的机器学习算法进行流量识别。QIANYaguan等人通过构造每个二进制SVM具有最佳可辨别性的独立特征空间,并将其训练到其自身的特征空间内,有效地提高了流量分类器的精度和召回率。程华等人针对加密通信的行为特点,利用密文十六进制字符的向量表示方法完成加密流量的向量化表达,并采用多窗口卷积神经网络提取加密C&C通信模式的特征,实现加密C&C通信数据流的识别与分类。然而这些针对流量的识别算法都存在特征选取范围过窄的问题,其未考虑到流量完整的特征,易导致识别效果不理想。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于载荷特征和统计特征的Shodan流量识别方法。本专利技术解决其技术问题所采用的技术方案是:构造一种基于载荷特征和统计特征的Shodan流量识别方法,包括步骤:在网络中设置交换机流量镜像端口,部署嗅探器进行流量监听;嗅探器对监听到的流量以数据包窗口的方式进行解析,分别提取载荷特征和统计特征;其中,载荷特征为应用层特征,统计特征为网络层特征;利用嗅探器的解析结果,对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别,完成Shodan流量和非Shodan流量的分类。在本专利技术所述的基于载荷特征和统计特征的Shodan流量识别方法中,在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤中,包括步骤:将流量输入基于状态机的载荷特征识别模型,通过判断载荷特征中的功能码序列特征,将流量分为类似Shodan流量和第一非Shodan流量;将类似Shodan流量输入基于统计特征的SVM识别模型进行识别,识别类似Shodan流量中的第二非Shodan流量,从而完成Shodan流量和非Shodan流量的分类。在本专利技术所述的基于载荷特征和统计特征的Shodan流量识别方法中,在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤之前,还包括对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤。在本专利技术所述的基于载荷特征和统计特征的Shodan流量识别方法中,对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤包括:收集正常的modbus/TCP通信流量,从网络层和应用层分别提取载荷特征和统计特征,确认是否属于Shodan流量并进行标记,生成完整的数据集;将数据集分别输入到基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练、测试,对模型进行优化,完成对模型的训练。在本专利技术所述的基于载荷特征和统计特征的Shodan流量识别方法中,在确认流量是否属于Shodan流量并进行标记的步骤中,通过IP反查域名并检查关联的PTR记录是否属于Shodan的子域,并进行标记。在本专利技术所述的基于载荷特征和统计特征的Shodan流量识别方法中,在提取载荷特征和统计特征的步骤中,应用层特征是在一定长数据包窗口内,提取每条数据包的功能码,并将一系列功能码按照先后顺序组成功能码序列;网络层特征是采用滑动窗口的方式依次提取不同窗口内的IP、端口、数据包个数、接收的字节数、连接持续时间、数据包时间间隔的均值、方差、最大最小值特征,作为统计特征。区别于现有技术,本专利技术提供的基于载荷特征和统计特征的Shodan流量识别方法包括步骤:在网络中设置本文档来自技高网
...

【技术保护点】
1.一种基于载荷特征和统计特征的Shodan流量识别方法,其特征在于,包括以下步骤:/n在网络中设置交换机流量镜像端口,部署嗅探器进行流量监听;/n嗅探器对监听到的流量以数据包窗口的方式进行解析,分别提取载荷特征和统计特征;其中,载荷特征为应用层特征,统计特征为网络层特征;/n利用嗅探器的解析结果,对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别,完成Shodan流量和非Shodan流量的分类。/n

【技术特征摘要】
1.一种基于载荷特征和统计特征的Shodan流量识别方法,其特征在于,包括以下步骤:
在网络中设置交换机流量镜像端口,部署嗅探器进行流量监听;
嗅探器对监听到的流量以数据包窗口的方式进行解析,分别提取载荷特征和统计特征;其中,载荷特征为应用层特征,统计特征为网络层特征;
利用嗅探器的解析结果,对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别,完成Shodan流量和非Shodan流量的分类。


2.根据权利要求1所述的基于载荷特征和统计特征的Shodan流量识别方法,其特征在于,在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤中,包括步骤:
将流量输入基于状态机的载荷特征识别模型,通过判断载荷特征中的功能码序列特征,将流量分为类似Shodan流量和第一非Shodan流量;
将类似Shodan流量输入基于统计特征的SVM识别模型进行识别,识别类似Shodan流量中的第二非Shodan流量,从而完成Shodan流量和非Shodan流量的分类。


3.根据权利要求1所述的基于载荷特征和统计特征的Shodan流量识别方法,其特征在于,在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤之前,还包括对基于状态机的载荷特...

【专利技术属性】
技术研发人员:陈永乐马垚于丹杨玉丽连晓伟
申请(专利权)人:太原理工大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1