基于可疑度评估的HTTP混淆流量检测方法技术

技术编号:20947489 阅读:30 留言:0更新日期:2019-04-24 03:40
本发明专利技术公开一种基于可疑度评估的HTTP混淆流量检测方法,首先过滤网络流量,提取出HTTP协议形式的数据流,分析HTTP数据流的协议头部信息的完整性、内容类型标识以及负载的数据类型三个特征,使用可疑度函数计算各特征的可疑度,将可疑度的加权数作为判决器的输入,由判决器判别数据流属于正常HTTP还是混淆HTTP,可疑度加权值超过判决阈值则判断为混淆,否则就判断为正常。本发明专利技术不依赖数据流易变的指纹特征,具有很好的适应性,能够适应不同网络环境的复杂情况。

Detection Method of HTTP Obfuscated Traffic Based on Suspicibility Assessment

The invention discloses an HTTP confusion traffic detection method based on suspicion evaluation. Firstly, it filters network traffic, extracts data flow in HTTP protocol form, analyzes three characteristics of HTTP data flow: integrity of protocol header information, identification of content type and data type of load, calculates suspicion degree of each feature using suspicion function, and regards weighted number of suspicion degree as a decision maker. The input is judged by the decision maker whether the data stream belongs to normal HTTP or confused HTTP. If the weighted value of suspicion exceeds the decision threshold, it is judged to be confused, otherwise it is judged to be normal. The invention does not depend on the changeable fingerprint characteristics of data flow, has good adaptability and can adapt to the complex situation of different network environments.

【技术实现步骤摘要】
基于可疑度评估的HTTP混淆流量检测方法
本专利技术涉及网络与信息安全技术,具体涉及一种基于可疑度评估的HTTP混淆流量检测方法。
技术介绍
流量混淆技术利用特定手段将任意协议格式的数据转换成特定协议的数据,它既可以作为网络流量数据传输过程中的一种隐私保护手段,也可以用于对抗网络安全机制,泄露数据或用作C&C通道,威胁公众安全。尤其是HTTP混淆技术,因为HTTP被互联网广泛使用,对应的80端口承载着大量必要应用,所以几乎没有防火墙会对该端口进行封堵,这使HTTP混淆十分泛滥。因此,检测HTTP混淆流量的存在,防止危害发生,是至关重要的环节。HTTP混淆流量检测技术作为网络安全防护领域内的一项非常重要的技术,引起了研究者的广泛关注,而且目前为止已经取得了很多的研究成果。根据文献检索,发现现有的检测技术大部分都是基于机器学习分类算法,这种研究方法相比较传统的基于规则和模式的方式而言,有了很大的进一步,但是研究对象大多设定为某个特定混淆软件产生的混淆流量,并且有指定的监测环境,不具备通用性。同时这类检测方案的机器学习训练大都基于有限的实验数据,在较为封闭的数据集上的效果甚至接近100%,但真实网络环境中流量的形态更加丰富,这些基于较为封闭的实验数据得到的分类器,在真实的网络环境中会产生大量的虚警。
技术实现思路
本专利技术的目的在于提供一种基于可疑度评估的HTTP混淆流量检测方法。本专利技术的目的在于提供一种基于可疑度评估的HTTP混淆流量检测方法,包括以下流程:步骤1:捕获网络流量数据,筛选出其中的HTTP流量;步骤2:提取HTTP流中每个数据包的TCP有效负载,重组成完整报文;步骤3:对每条流的首个请求报文和首个响应报文进行特征匹配,匹配内容为协议头部信息的完整性匹配、内容类型标识与负载实际类型的一致性匹配;步骤4、根据匹配结果,计算每个特征的可疑度数值;步骤5、进行可疑度加权,与可疑度阈值比较,确定混淆HTTP。作为一种优选实施方式,步骤1中,采用Wireshark软件和Hyperscan正则匹配库捕获网络流量数据。作为一种优选实施方式,步骤2中,采用Matlab软件提取HTTP流中每个数据包的TCP有效负载。作为一种优选实施方式,步骤3中,在协议头部完整性匹配过程中,设置一个长度为N的一维向量,代表所考察的N个首部字段的匹配结果,匹配对象中未出现的首部字段,一维向量中对应的位置设1;匹配对象中出现的首部字段,一维向量中对应的位置设0。作为一种优选实施方式,步骤3中,内容类型标识与负载实际类型匹配包括负载的压缩格式匹配和负载MIME类型匹配,具体为:根据内容类型标识“Content-Encoding”字段匹配负载的压缩格式,若符合“Content-Encoding”字段,匹配结果设0,并解压负载数据;若不符合,匹配结果设1;根据内容类型标识“Content-Type”字段匹配负载的MIME类型,若负载类型为文本文件,则计算负载内容的负载信息熵,设负载信息X共有M个字符,当中的每个字符x出现的次数为N(x),则每个字符出现的概率为N(x)/M,由公式(1)计算负载熵:若负载信息熵高于明文负载熵阈值,匹配结果设1,否则匹配结果设0;若负载类型为非文本文件,则根据“Content-Type”字段所标识的MIME类型匹配负载数据的文件头,若符合“Content-Type”字段,匹配结果设0,否则匹配结果设1。作为一种优选实施方式,步骤4中,由公式(2)计算每个特征的可疑度数值:其中是流量x的第i个特征,该特征包含m个子特征,是第i个特征的可疑权重向量;对于“协议头部信息”特征而言,为所考察的m个首部字段的可疑权重向量,各字段权重数值的设置方法为:根据已统计的正常HTTP报文各首部字段出现的频次比例为所有m个首部字段设置权重值,出现频次越高的字段权重值越高,且满足对于“负载数据类型”特征而言,匹配结果只有成功和失败两种,作为一种优选实施方式,步骤5中,由公式(3)计算可疑度加权值:其中是流量x的第i个特征,该特征包含m个子特征,是第i个特征的可疑权重向量,ηi是比例系数,可以根据实际网络情况和每个特征的重要程度进行动态调整。作为一种优选实施方式,步骤5中,根据可疑度加权值与可疑度阈值确定分类结果的判决函数如公式(4):其中Se(x)是数据流x的可疑度数值,thres是可疑度阈值,可疑度阈值可以根据实际网络情况和检测需求进行动态调整,若可疑度加权值大于等于可疑度阈值,输出结果为混淆HTTP,否则输出结果为正常HTTP。有益效果:本专利技术在分析数据多种维度信息的基础上,根据匹配程度使用可疑度函数进行可疑度计算,并通过判决器进行混淆流量判定,可有效克服依赖流量特征带来的虚警率高的问题,具有良好的适应性,能够适应不同网络环境的复杂情况。附图说明图1为本专利技术的流程示意图;图2为明文和密文负载的负载信息熵分布散点图。具体实施方式下面结合附图和具体实施例,进一步说明本专利技术方案。本专利技术通过分析HTTP数据流的协议头部信息的完整性、内容类型标识以及负载的数据类型三个特征,使用可疑度函数计算各特征的可疑度,将计算结果输入判决器,由判决器判别数据流是否是HTTP混淆流量,如图1所示,基于可疑度评估的HTTP混淆流量检测方法,具体包括以下流程:步骤1:设置数据捕获器,利用数据捕获器捕获网络流量数据,并筛选出其中的HTTP流量;作为一种实施方式,数据捕获器可以采用Wireshark软件和Hyperscan正则匹配库。步骤2:设置数据处理器,利用数据处理器提取HTTP流中每个数据包的TCP有效负载,重组成完整报文;作为一种具体实施方式,数据处理器可以采用Matlab。步骤3:设置特征匹配器,利用特征匹配器分别对每条流的首个请求报文和首个响应报文进行特征匹配,匹配内容为协议头部信息的完整性匹配、内容类型标识与负载实际类型的一致性匹配。在协议头部完整性匹配过程中,设置一个长度为N的一维向量,代表所考察的N个首部字段的匹配结果。匹配对象中未出现的首部字段,一维向量中对应的位置设1;匹配对象中出现的首部字段,一维向量中对应的位置设0;内容类型标识与负载实际类型的一致性匹配中,根据内容类型标识“Content-Encoding”字段匹配负载的压缩格式,若符合“Content-Encoding”字段,匹配结果设0,并解压负载数据;若不符合,匹配结果设1;根据内容类型标识“Content-Type”字段匹配负载的MIME类型,若负载类型为文本文件,则计算负载内容的负载信息熵。设负载信息X共有M个字符,当中的每个字符x出现的次数为N(x),则每个字符出现的概率为N(x)/M。负载熵可由公式(1)计算:若负载信息熵高于明文负载熵阈值,匹配结果设1,否则匹配结果设0。若负载类型为非文本文件,则根据“Content-Type”字段所标识的MIME类型匹配负载数据的文件头,若符合“Content-Type”字段,匹配结果设0,否则匹配结果设。步骤4:设置可疑度评估器,可疑度评估器根据步骤3的特征匹配器输出的匹配结果计算每个特征的可疑度数值,可疑度数值可由公式(2)计算:其中是流量x的第i个特征,该特征包含m个子特征。是第i个特征的可疑权重向量;对于“协议头本文档来自技高网...

【技术保护点】
1.一种基于可疑度评估的HTTP混淆流量检测方法,其特征在于,包括以下流程:步骤1:捕获网络流量数据,筛选出其中的HTTP流量;步骤2:提取HTTP流中每个数据包的TCP有效负载,重组成完整报文;步骤3:对每条流的首个请求报文和首个响应报文进行特征匹配,匹配内容为协议头部信息的完整性匹配、内容类型标识与负载实际类型的一致性匹配;步骤4、根据匹配结果,计算每个特征的可疑度数值;步骤5、进行可疑度加权,与可疑度阈值比较,确定混淆HTTP。

【技术特征摘要】
1.一种基于可疑度评估的HTTP混淆流量检测方法,其特征在于,包括以下流程:步骤1:捕获网络流量数据,筛选出其中的HTTP流量;步骤2:提取HTTP流中每个数据包的TCP有效负载,重组成完整报文;步骤3:对每条流的首个请求报文和首个响应报文进行特征匹配,匹配内容为协议头部信息的完整性匹配、内容类型标识与负载实际类型的一致性匹配;步骤4、根据匹配结果,计算每个特征的可疑度数值;步骤5、进行可疑度加权,与可疑度阈值比较,确定混淆HTTP。2.根据权利要求1所述的基于可疑度评估的HTTP混淆流量检测方法,其特征在于,步骤1中,采用Wireshark软件和Hyperscan正则匹配库捕获网络流量数据。3.根据权利要求1所述的基于可疑度评估的HTTP混淆流量检测方法,其特征在于,步骤2中,采用Matlab软件提取HTTP流中每个数据包的TCP有效负载。4.根据权利要求1所述的基于可疑度评估的HTTP混淆流量检测方法,其特征在于,步骤3中,在协议头部完整性匹配过程中,设置一个长度为N的一维向量,代表所考察的N个首部字段的匹配结果,匹配对象中未出现的首部字段,一维向量中对应的位置设1;匹配对象中出现的首部字段,一维向量中对应的位置设0。5.根据权利要求1所述的基于可疑度评估的HTTP混淆流量检测方法,其特征在于,步骤3中,内容类型标识与负载实际类型匹配包括负载的压缩格式匹配和负载MIME类型匹配,具体为:根据内容类型标识“Content-Encoding”字段匹配负载的压缩格式,若符合“Content-Encoding”字段,匹配结果设0,并解压负载数据;若不符合,匹配结果设1;根据内容类型标识“Content-Type”字段匹配负载的MIME类型,若负载类型为文本文件,...

【专利技术属性】
技术研发人员:郑田宇怡暾刘光杰刘伟伟方俊华纯阳黄书华杨路辉
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1