一种对网络加密流量自动进行特征提取和识别的方法技术

技术编号：22420095 阅读：46 留言：0更新日期：2019-10-30 02:32

本发明专利技术提供一种对网络加密流量自动进行特征提取和识别的方法，包括下列步骤：S1：数据采集阶段，使用抓包工具对网络加密数据流量进行抓取；S2：数据预处理阶段，将数据包进行过滤，排除无用包干扰，得到用于特征提取的样本数据，构建完整数据集；S3：特征提取阶段，采用相似度算法对数据预处理阶段产生的完整数据集进行相似度分类，对具有高相关性、高相似度的数据进行聚类的方式进行特征提取；S4：数据建模阶段，对聚类后的数据进行标记，采用机器学习算法构建分类模型，数据验证模型的准确性和识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种对网络加密流量自动进行特征提取和识别的方法
本专利技术涉及大数据处理领域和网络安全领域，尤其是涉及一种基于机器学习算法对大数据网络加密流量自动进行特征提取和识别的方法。
技术介绍
在传统网络安全和网络监管中，通过提取网络流量中的明文内容获取信息，达到对网络恶意流量的监控、用户信息的识别、非法行为的捕获等目的。但随着加密技术的发展，越来越多的网络数据进行加密通信，加密数据即使被监听也很难从中获取有效信息，为了有效进行网络监管，如何从加密数据中提取有效信息成了研究网络安全方面技术的重点。目前利用大数据对加密流量进行识别的研究主要用于针对异常流量和病毒识别方面，研究基于对整个协议层数据进行处理，网络环境复杂，工程量大。在针对网络用户行为识别方面，多数还是基于DPI深度包分析，从应用层加密内容中提取具有规律且能用来进行标识的特征值(有规律的字符串)，来进行用户行为识别，该类方法在实际操作过程中，寻找特征值的工作量繁琐，维护困难，并且在加密技术的不断改进下，寻找特征值的方式也逐渐变的困难。
技术实现思路
本专利技术提供了一种对网络加密流量自动进行特征提取和识别的方法，将传统加密数据流量识别方法和机器学习分类方法相结合，其中，传统加密数据流量识别方式是通过DPI深度包检测方法对加密内容进行研究，提取数据包特征，对提取的特征尝试多种组合方式，并通过聚类方式对组合的数据集进分类提取特征数组并添加标记；基于大数据机器学习算法，是对处理好的数据进行学习建模，构建分类器模型达到对目标行为识别效果。因此，通过形成一套完整的特征提取和数据建模流程，解决了对特定目标数据进行识别的问题...

【技术保护点】
1.一种对网络加密流量自动进行特征提取和识别的方法，包括下列步骤：S1：数据采集阶段，使用抓包工具对网络加密数据流量进行抓取；S2：数据预处理阶段，将数据包进行过滤，排除无用包干扰，得到用于特征提取的样本数据，构建完整数据集；S3：特征提取阶段，采用相似度算法对数据预处理阶段产生的完整数据集进行相似度分类，对具有高相关性、高相似度的数据进行聚类的方式进行特征提取；S4：数据建模阶段，对聚类后的数据进行标记，采用机器学习算法构建分类模型，数据验证模型的准确性和识别效果。

【技术特征摘要】
1.一种对网络加密流量自动进行特征提取和识别的方法，包括下列步骤：S1：数据采集阶段，使用抓包工具对网络加密数据流量进行抓取；S2：数据预处理阶段，将数据包进行过滤，排除无用包干扰，得到用于特征提取的样本数据，构建完整数据集；S3：特征提取阶段，采用相似度算法对数据预处理阶段产生的完整数据集进行相似度分类，对具有高相关性、高相似度的数据进行聚类的方式进行特征提取；S4：数据建模阶段，对聚类后的数据进行标记，采用机器学习算法构建分类模型，数据验证模型的准确性和识别效果。2.根据权利要求1所述的对网络加密流量自动进行特征提取和识别的方法，其特征在于：步骤S1中，抓包工具对网卡进行监控，重复执行特定上网行为，用抓包工具对期间产生的加密数据流量进行采集，采集过程中记录行为产生加密数据流量的起始位置。3.根据权利要求2所述的对网络加密流量自动进行特征提取和识别的方法，其特征在于：抓包工具对获取的加密流量数据包进行特征提取，提取加密数据包的基本特征，所述基本特征包括捕获时间、ip地址、端口、协议类型、应用层加密内容和长度。4.根据权利要求1所述的对网络加密流量自动进行特征提取和识别的方法，其特征在于：步骤S2中，将数据包进行过滤以及排除无用包干扰包括以下步骤：1)根据端口对协议类型进行判断，将非加密协议的数据包过滤，加密协议端口为443；2)根据四元组和数据包时序对数据包进行排序，过滤乱序和重发的数据包；3)对数据包应用层长度为零的数据包进行过滤。过滤后，将网络数据流量提取成多条完整的加密会话流量。5.根据权利要求4所述的对网络加密流量自动进行特征提取和识别的方法，其特征在于：步骤S2中，根据加密会话...

【专利技术属性】
技术研发人员：徐锐，代宏伟，
申请(专利权)人：北京中安智达科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人