基于随机森林的协议加密算法类型识别方法技术

技术编号：21899272 阅读：35 留言：0更新日期：2019-08-17 18:36

本发明专利技术公开了一种基于随机森林的协议加密算法类型识别方法，所述方法包括如下步骤：(1)从HTTPS数据流中提取加密应用数据，分析提取密文特性并构建特征；(2)将训练集输入到包含10棵C4.5决策树的随机森林中，每棵决策树使用自助采样法选取训练子集；(3)用训练子集训练随机森林的决策树；(4)当所有决策树训练完毕后，选择结点上占比最大的加密类型作为该结点的加密类型；(5)将测试集输入到使用HTTPS协议应用密文训练的随机森林模型中；(6)随机森林中的每棵决策树给出分类结果，依据相对多数投票法则选出最终的分类结果。该方法可以对互联网上的加密应用数据进行初步的分析，分析其加密算法类型。

Type Recognition Method of Protocol Encryption Algorithms Based on Random Forest

全部详细技术资料下载

【技术实现步骤摘要】
基于随机森林的协议加密算法类型识别方法
本专利技术属于网络信息安全领域，涉及一种对互联网上存在应用层加密的加密算法类型识别的方法。
技术介绍
近年移动终端的逐渐普及和网络的蓬勃发展催生了新型互联网结构的诞生，促进了网络流量的增长。在如此庞大的网络背后，对网络流量的有效监管是网络安全保护的基石。用户在网络应用上保存了大量隐私信息，尤其是在网上支付、社交网络等应用上，这些信息若被恶意流量或应用泄露，将会对用户个人信息安全造成极大威胁，故对于用户信息的保密尤为重要，现今许多互联网流量都对上层数据进行了加密。但是对于网络监管来说，必须要对各个应用进行规范和督查，因此，对于线上加密流量的分析尤为重要。用户主要产生的流量大致来源于分享音乐、视频等文件，浏览网络上的网页，收发电子邮件，社交中的聊天、视频等操作，网上购物等。网页、邮件内容主要是通过HTTP、HTTPS、SMTP、POP3协议进行传输，其中HTTPS、SSH协议涉及到加密流量的传输，用以保证用户信息的安全传输。许多流量都采用了加密应用数据的方法来保证用户信息在链路传输时的安全性，例如Skype、HTTP、SSH等。对于加密应用数据来说，对该部分数据文本特征进行分析，与一定的算法相结合，可以识别出密文的具体加密算法。对于加密数据的研究现在也逐渐引入了机器学习算法。Alshammari等使用了聚类方法来识别VoIP流量，改变以往基于IP地址、端口的方式，采用流特征的方式较好的识别了GTalk、Skype流量，引入了C4.5决策树、遗传编程等算法，在着重分析了加密流量的属性特征基础上，实现了对加密流量的有效分类。...

【技术保护点】
1.一种基于随机森林的协议加密算法类型识别方法，其特征在于所述方法包括如下步骤：步骤一、训练阶段：(1)从HTTPS数据流中提取加密应用数据，分析提取密文特性并构建特征，组成具有M维的特征F＝{f1,f2,...,fM}，M＝11，通过该方式将原始数据处理为可以被随机森林识别的数据集；(2)将训练集输入到包含10棵C4.5决策树的随机森林中，每棵决策树使用自助采样法选取训练子集T′；(3)每棵决策树在训练时，随机丢弃部分特征维度，使用剩下的特征F′进行信息增益比的判断，直到每个结点上的样本个数小于阈值；(4)当所有决策树训练完毕后，选择结点上占比最大的加密类型作为该结点的加密类型；步骤二、测试阶段：(1)将测试集按照不同协议类型分开，针对其中的HTTPS协议，作为随机森林测试集；(2)将测试集的样本数据输入到使用HTTPS协议应用密文训练的随机森林模型中；(3)随机森林中的每棵决策树给出分类结果，依据相对多数投票法则选出最终的分类结果。

【技术特征摘要】
1.一种基于随机森林的协议加密算法类型识别方法，其特征在于所述方法包括如下步骤：步骤一、训练阶段：(1)从HTTPS数据流中提取加密应用数据，分析提取密文特性并构建特征，组成具有M维的特征F＝{f1,f2,...,fM}，M＝11，通过该方式将原始数据处理为可以被随机森林识别的数据集；(2)将训练集输入到包含10棵C4.5决策树的随机森林中，每棵决策树使用自助采样法选取训练子集T′；(3)每棵决策树在训练时，随机丢弃部分特征维度，使用剩下的特征F′进行信息增益比的判断，直到每个结点上的样本个数小于阈值；(4)当所有决策树训练完毕后，选择结点上占比最大的加密类型作为该结点的加密类型；步骤二、测试阶段：(1)将测试集按照不同协议类型分开，针对其中的HTTPS协议，作为随机森林测试集；(2)将测试集的样本数据输入到使用HTTPS协议应用密文训练的随机森林模型中；(3)随机森林中的每棵决策树给出分类结果，依据相对多数投票法则选出...

【专利技术属性】
技术研发人员：杨武，
申请(专利权)人：哈尔滨英赛克信息技术有限公司，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人