一种基于形状的抗噪加密流量聚类方法技术

技术编号：45094750 阅读：24 留言：0更新日期：2025-04-25 18:32

本发明专利技术公开了一种基于形状的抗噪加密流量聚类方法。本方法步骤为：1)获取并解析原始流量数据，得到多条数据流；按设定时间间隔对每一条数据流的上行数据和下行数据进行划分，得到每一条数据流对应的上行序列U和下行序列D；2)将每一条流的上行序列U和下行序列D拼接形成一个整体序列F，代表对应数据流的行为特征；从数据流的行为特征中提取对应数据流的形状线S和统计特征；3)基于各数据流归一化后的形状线S对各数据流进行聚类，将具有相同行为模式的数据流聚为一簇；4)基于统计特征计算每个簇的聚类中心特征；然后计算未聚类到任意簇中的数据流的统计特征与各聚类中心特征之间的欧氏距离，确定对应数据流的类别或是否为异常点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络通信，特别是加密流量分析和流量分类，涉及一种基于形状的抗噪加密流量聚类方法。

技术介绍

1、网络流量分类技术是网络通信领域中的基础技术，传统方法主要依赖端口分析和深度包检测(dpi)，但这些技术在面对加密流量时效果受限，因为加密数据包的内容无法直接读取。随着加密技术如ssl/tls的普及，研究者转向基于机器学习和深度学习的方法，这些方法通过分析流量的统计特征而非直接内容来实现分类，从而在处理加密流量方面显示出优势。然而，这些方法通常需要大量标记数据进行模型训练，这在实际应用中存在挑战。本申请提案提出的基于形状的抗噪加密流量聚类方法，旨在解决现有技术中对大量标记数据的依赖问题，通过无监督学习实现对加密流量的高效分类。

2、深度学习技术是机器学习的一个分支，它通过使用多层神经网络来模拟人脑处理信息的方式。在网络流量分类领域，深度学习方法被用来自动提取流量特征，并进行分类。深度学习模型能够处理高维数据，并且能够学习到数据中的复杂模式，这对于加密流量的分类尤其有用。但是，深度学习模型的训练通常需要大量的标记数据，并且计算资源消耗较大。

3、无监督学习是机器学习中的一种方法，它不需要标记数据来训练模型。无监督学习算法通过探索数据的内在结构和模式来发现数据的自然聚类。在网络流量分类中，无监督学习可以用来识别未知的流量类型，并且能够适应网络环境的变化。无监督学习方法在处理加密流量时具有潜力，因为它们不依赖于数据包内容的直接检查，而是依赖于流量行为的模式识别。

4、时间序列分析是统计学中的一

5、形状相似性度量是评估两个时间序列数据相似度的一种方法。在网络流量分类中，形状相似性度量可以用来比较不同流量的时间序列，从而识别出具有相似行为模式的流量。这种方法对于识别加密流量中的相似应用模式特别有用，因为即使数据内容被加密，流量的形状特征仍然可以被用来进行分类。

6、以下为主要依赖于有监督学习的加密流量分类方法：

7、(1)基于传统机器学习的加密流量分类方法。这些方法通常使用支持向量机(svm)、神经网络或增量支持向量机(svm)来对流量进行分类。这些方法在处理加密流量时，依赖于从流量数据中提取的统计特征，如数据包大小、传输时间间隔等。然而，这些方法需要大量的标记数据来进行模型训练，这在实际应用中可能难以获取，且对于未知的流量模式难以有效分类。

8、(2)基于深度学习的加密流量分类方法。随着深度学习技术的发展，一些研究者开始尝试使用深度学习模型，如卷积神经网络(cnn)和循环神经网络(rnn)，来处理加密流量分类问题。这些方法能够自动从数据中学习特征，减少了对大量标记数据的依赖。但是，深度学习模型通常需要大量的计算资源，且对于新出现的流量模式，模型可能需要重新训练以适应。

9、现有技术的缺点如下：

10、(1)依赖大量标记数据，这在实际环境中难以获取，且无法处理未知流量。

11、现有加密流量分类方法主要依赖于有监督学习，这要求大量的标记数据。例如，一些方法使用支持向量机(svm)或神经网络来对流量进行分类。然而，这些方法在动态和复杂的网络环境中表现不佳，因为它们需要预先定义的聚类数量，并且难以适应新的未知流量模式。

12、(2)忽略了流量的时间动态特性，如数据包到达时间和速率变化，这对于准确分类加密流量至关重要。

13、尽管机器学习方法可以解决许多基于端口和有效载荷的方法无法解决的问题，但仍然存在一些局限：无法自动提取和选择特征，需要依赖领域专家的经验，导致将机器学习应用于加密流量分类时存在很大的不确定性；特征容易失效，需要不断更新。

14、(3)无法适应不同网络条件下同一服务的不同应用行为的变化。

15、在真实网络环境下，类不平衡也是加密流量分类的重要问题，会直接影响分类精度。而且，由于隐私保护和流量标注工具如深度包解析工具无法处理加密流量，难以在短时间和低成本的条件下合法收集，并准确标注加密流量数据集。

技术实现思路

1、针对现有技术中存在的问题，本专利技术的目的在于提供一种基于形状的抗噪加密流量聚类方法。本专利技术它不依赖于大量的标记数据，而是通过分析流量的字节速率变化来捕捉流量行为模式。这种方法能够有效地适应复杂和动态的网络环境，并且能够处理未知的流量模式，这是现有技术方案难以实现的。此外，本申请提案的方法在处理加密流量时，能够抵抗网络抖动和数据包丢失等噪声干扰，提高了分类的准确性和鲁棒性。

2、首先，该方法通过分析网络流量的字节速率变化，捕捉流量行为模式，从而深入探索加密流量的特性。这种方法超越了传统依赖于大量标记数据的监督学习方法的局限，能够在无需人工干预的情况下，自动识别和分类网络流量。

3、其次，通过采用抗噪声的形状线提取技术，该方法能够在保留流量核心行为特征的同时，有效抵抗网络抖动和数据包丢失等噪声干扰。这一技术实现了对流量时间序列的精确分析，提高了在复杂网络环境中对加密流量进行分类的准确性和鲁棒性。

4、此外，该方法设计了一种多维特征提取策略，该策略不仅分析了上行和下行流量特征，还结合了统计和基于形状的特征，以适应不同网络条件下同一服务的不同应用行为的变化。这种方法保证了在多变的网络环境中，能够准确地识别和聚类不同应用的流量模式。

5、最后，该方法提出了一种无监督分类算法，该算法结合了形状基密度聚类和特征分配策略，克服了传统方法中需要预定义聚类数量的限制，并能够处理未知流量类型。这种算法的提出，为处理大规模、高维度的加密流量数据提供了一种新的解决方案，具有强大的扩展性和适应性。

6、本专利技术主要包括以下内容：

7、1)抗噪声的形状线提取方法

8、本申请通过设计独特的形状线提取算法，提出了一种能够有效抗噪的流量特征提取方法。该方法在面对网络抖动、丢包等噪声干扰时，仍可精准保留流量行为的核心特征。通过剔除异常值并应用平滑处理，形状线提取方法能够过滤掉突发的噪声和异常流量波动，使流量的主要形状特征得以有效还原。此抗噪设计确保了系统在复杂网络环境下的流量特征提取准确性，大幅提升了分类的鲁棒性，即便在高噪声或不稳定的网络条件中仍能保持准确性和稳定性。

9、2)多维特征提取策略

10、为进一步提升流量分类的准确性，本申请提出了一种结合统计特征和形状特征的多维特征提取策略。该方法不仅从字节速率等统计特征中提取流量的整体统计信息，还结合流量的形状特征以获取时间动态模式。多维特征提取策略不仅适应不同的网络条件，还能够对同一服务的不同应用进行精准聚类，确保即便是在复杂服务场景下，系统也能从多个维度准确捕捉流量的独特特征并进行本文档来自技高网...

【技术保护点】

1.一种基于形状的抗噪加密流量聚类方法，其步骤包括：

2.根据权利要求1所述的方法，其特征在于，从每一数据流的行为特征中提取对应数据流的形状线S的方法为：使用带有滑动窗口的移动平均算法对整体序列F＝(f1,f2,…,fq)进行平滑；其中，若上行序列U的零值比例大于50％，则滑动窗口大小否则滑动窗口大小对于整体序列F中的每个点ft，其对应的形状线S上的点st是向量(ft-w+1,…,ft)的均值，形状线S＝(sw,sw+1,…,sq)，

3.根据权利要求1所述的方法，其特征在于，所述统计特征包括下行序列D的平均值、上行序列U均值与下行序列D均值的比值、上行序列U中零值的比例以及整体序列F的总长度。

4.根据权利要求1或2或3所述的方法，其特征在于，基于各数据流对应的归一化后的形状线S对各数据流进行聚类的方法为：

5.根据权利要求4所述的方法，其特征在于，其中，s∈[1-m,n-1]。

6.根据权利要求1或2或3所述的方法，其特征在于，上行序列U＝{U1,U2,…,UK}，下行序列D＝{D1,D2,…,DK}；其中，Uk＝∑

7.根据权利要求1所述的方法，其特征在于，从网络接口或流量捕获文件中实时抓取并解析原始流量数据。

8.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至7任一所述方法的指令。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。

...

【技术特征摘要】

1.一种基于形状的抗噪加密流量聚类方法，其步骤包括：

2.根据权利要求1所述的方法，其特征在于，从每一数据流的行为特征中提取对应数据流的形状线s的方法为：使用带有滑动窗口的移动平均算法对整体序列f＝(f1,f2,…,fq)进行平滑；其中，若上行序列u的零值比例大于50％，则滑动窗口大小否则滑动窗口大小对于整体序列f中的每个点ft，其对应的形状线s上的点st是向量(ft-w+1,…,ft)的均值，形状线s＝(sw,sw+1,…,sq)，

3.根据权利要求1所述的方法，其特征在于，所述统计特征包括下行序列d的平均值、上行序列u均值与下行序列d均值的比值、上行序列u中零值的比例以及整体序列f的总长度。

4.根据权利要求1或2或3所述的方法，其特征在于，基于各数据流对应的归一化后的形状线s对各数据流进行聚类的方法为：

5.根据权利要求4所述的方法，其特征在于，其中，s∈[1-m,n-1]。

...

【专利技术属性】
技术研发人员：杜梅婕，胡明祺，李舒，李钊，张中一，张宏飞，刘庆云，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人