一种基于度量空间下去中心化应用加密流量分类方法及装置制造方法及图纸

技术编号：32222133 阅读：11 留言：0更新日期：2022-02-09 17:27

本发明专利技术公开了一种基于度量空间下去中心化应用加密流量分类方法及装置，包括收集去中心化应用的加密流量，对各加密流量标记应用；利用各加密流量的特征向量，进行聚类，以划分简单样本和困难样本；将聚类结果中任一困难样本作为正样本F，该正样本F所属类别的簇中心点作为正样本簇中心C

全部详细技术资料下载

【技术实现步骤摘要】
一种基于度量空间下去中心化应用加密流量分类方法及装置

[0001]本专利技术属于网络安全领域，涉及计算机软件领域，具体为一种基于度量空间下去中心化应用(DApps)加密流量分类方法及装置。

技术介绍

[0002]自2008年以比特币为代表的区块链诞生以来，由于去中心化、匿名性、不可篡改性、流通性等特性使区块链技术受到广泛的关注和研究，基于区块链的数字货币超过9800种。区块链所承载的功能也从以比特币为代表的加密货币发展到以以太坊为主的智能合约，从而成为图灵完备的可编程加密货币。
[0003]区块链技术本质上是一个服务于现实场景的底层账本，区块链最上层之应用层包含电子钱包、各类区块链应用等，大部分可归为DApps，是区块链技术的主要落地项目。DApps是在没有单个实体控制的情况下自主管理的，区块链技术自然可以为每个用户提供匿名性，这是传统应用无法提供的独特优势。到目前为止，已有超过3700个DApps被部署在不同的区块链平台上，如Etherem(81.91％)、EOS(8.97％)、Steem(1.62％)等。然而，DApps处在初级发展阶段，面临如何更好地管理DApps网络及如何确保安全的网络环境两个关键问题，网络流量分类应运而生。针对前者，根据不同的优先级策略，对DApps业务进行分类，以便更好地进行网络管理；针对后者，对恶意的DApps流量进行异常检测，保证网络安全。流量分类吸引了众多研究者的关注，已经有很多方法被提出用于网站分类、移动应用分类和用户行为分类，但对DApps加密流量分类的研究很少。
>[0004]通过被动采集流量，以进行去中心化应用网络加密流量分类与分析。现有的传统分类方法可分为三种：
①
基于端口匹配的流量分类方法，
②
基于数据包载荷匹配(深度包检测)的流量分类方法，
③
基于机器学习的流量分类方法。但随技术的发展，因端口随机化、混淆，
①
已不适用；因去中心化应用网络通信已加密，通信内容随机化，针对
②
技术，如匹配明文特征字段、行为特征库，也已失效。即基于规则匹配的方法(
①
和
②
)不适用于已加密的去中心化应用；而由于人工智能技术复兴和计算机硬件技术的发展，基于机器学习的方法成为加密流量分类领域的主流方法。
[0005]80％的DApps部署在以太坊上，使用了相同的通信接口，此外，与传统应用不同，不会因公司的差异而使用不同的SSL/TLS协议版本，因此部署在相同区块链平台的DApps使用相似的加密流量设置，增加了DApps流量的相似性。
[0006]虽然先前的工作在传统应用分类场景中已经取得了很好的精度结果，但这些方法设计了非常复杂的网络结构，并结合基于专业知识、人力和时间成本的人工设计提取的特征。部分研究使用较少或更简单的特征获得较高准确率，但在DApps加密流量分类场景中的结果较差。一些研究还借助于大规模数据集来长时间训练以提高性能(如，数据集包含95.6万条流)，但因数据集中包含较多模型可直接区分的简单样本导致了数据集冗余问题。总的来说，DApps 加密流量分类任务可以分解为两个子任务：如何自动提取特征并对DApps流量进行准确分类；如何提高模型训练效率。
[0007]代表性的DApps分类方法包括FFP和RF+LT。这两种方法均基于专家先验知识，通过人工分析DApps和分类场景特性，设计适用于相应场景的特征集。FFP方法提取时间序列、数据包长度和burst序列特征，通过核函数融合三种特征以生成高维特征。DApps流量分类准确率达90％，但由于输入的特征向量较大，该方法的训练和测试时间本较高。研究RF+LT方法的作者发现数据集中约60％的DApps加密流量是短流，导致burst特征的效果较差，所以仅提取时间和数据包长度序列，利用随机森林构建分类器以区分不同DApps。但这些方法过度依赖专家，并且人工设计的特征往往包含冗余特征，而增加训练和测试成本以及影响测试结果。

技术实现思路

[0008]为了解决上述问题，本专利技术提供一种基于度量空间下的去中心化应用加密流量分类方法及装置。本专利技术的技术方案称为CQNet架构，在不对去中心化应用加密流量中间人解密或逆向的情况下，被动检测去中心化应用流量，并通过深度度量学习得到一个嵌入空间，从而将每条加密流映射到此空间，形成一个嵌入向量。此专利技术包含两种机制：简单样本筛选算法(FE
‑ꢀ
set算法)和四重网络。FE
‑
set算法基于Mini
‑
Batch KMeans、Kuhn
‑
Munkres算法和探索簇中心算法，从数据集中过滤出简单样本，最终将数据集分为简单数据集和困难数据集，其中semi
‑ꢀ
hard和hard数据统一归为困难数据集。之后，在困难数据集上构造四元组作为四重网络的输入，增加训练的限制关系以最终提高训练效率和分类精度。实验表明，本专利技术可以去除部分容易区分的流量样本，得到包含更多信息的优质可训练样本集，通过增加样本间的限制关系，可以更精准区分样本所述类别，本专利技术的模型在自采集的真实去中心化应用数据集上的表现优于最新的加密流量分类模型。
[0009]为达到上述目的，本专利技术采用如下的技术方案：
[0010]一种基于度量空间下去中心化应用加密流量分类方法，其步骤包括：
[0011]1)收集去中心化应用的加密流量，对各加密流量标记应用；
[0012]2)利用各加密流量的特征向量，进行聚类，以划分简单样本和困难样本；
[0013]3)将聚类结果中任一困难样本作为正样本F，该正样本F所属类别的簇中心点作为正样本簇中心C
F
，其他类别中的任一困难样本作为负样本F
′
i
，该负样本F
′
i
所属类别的簇中心点作为以构建若干四元组
[0014]4)利用四元组S对四重网络进行训练，得到分类模型；
[0015]5)将测试集中的样本输入分类模型，在度量空间下计算相似度，获取目标加密流量的分类结果。
[0016]进一步地，所述去中心化应用的类别包括：市场类、社交类、金融类、高风险类和游戏类；所述市场类包括：Ocean Market、OpenSea、Superrare和District0x；所述社交类包括： Livepeer、Loom Network和2key；所述金融类包括：Tether、MakerDAO和Nexo；所述高风险类包括：DoubleWay、E2X和Gandhiji；所述游戏类包括：Axie Infinity、BFH和EvolutionLand。
[0017]进一步地，提取特征向量之前，对加密流量进行预处理。
[0018]进一步地，所述预处理包括：过滤没有Client Hello包的加密流量、过滤无SNI字段的加密流量、过滤加密流量中的ACK包和过滤加密流量中的重传数据包。
[0本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于度量空间下去中心化应用加密流量分类方法，其步骤包括：1)收集去中心化应用的加密流量，对各加密流量标记应用；2)利用各加密流量的特征向量，进行聚类，以划分简单样本和困难样本；3)将聚类结果中任一困难样本作为正样本F，该正样本F所属类别的簇中心点作为正样本簇中心C
F
，其他类别中的任一困难样本作为负样本F
′
i
，该负样本F
′
i
所属类别的簇中心点作为以构建若干四元组4)利用四元组S对四重网络进行训练，得到分类模型；5)将测试集中的样本输入分类模型，在度量空间下计算相似度，获取目标加密流量的分类结果。2.如权利要求1所述的方法，其特征在于，所述去中心化应用的类别包括：市场类、社交类、金融类、高风险类和游戏类；所述市场类包括：Ocean Market、OpenSea、Superrare和District0x；所述社交类包括：Livepeer、Loom Network和2key；所述金融类包括：Tether、MakerDAO和Nexo；所述高风险类包括：DoubleWay、E2X和Gandhiji；所述游戏类包括：Axie Infinity、BFH和Evolution Land。3.如权利要求1所述的方法，其特征在于，提取特征向量之前，对加密流量进行预处理；所述预处理包括：过滤没有Client Hello包的加密流量、过滤无SNI字段的加密流量、过滤加密流量中的ACK包和过滤加密流量中的重传数据包。4.如权利要求1所述的方法，其特征在于，通过以下步骤获...

【专利技术属性】
技术研发人员：李镇，石俊峥，王宇，苟高鹏，管洋洋，扶佩佩，熊刚，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人