基于联邦学习与联盟博弈的威胁情报分类方法及系统技术方案

技术编号：41798230 阅读：13 留言：0更新日期：2024-06-24 20:21

本发明专利技术公开了一种基于联邦学习与联盟博弈的威胁情报分类方法及系统，该方法包括：基于TextCNN网络构建分类模型；将不同设备形成联盟，结合联邦学习，对所述分类模型进行训练，得到训练完成的分类模型；将待测威胁情报数据输入至所述训练完成的分类模型，得到分类结果。该系统包括：模型构建模块、模型训练模块和分类模块。通过使用本发明专利技术，能够在保护用户隐私的前提下，提高威胁情报分类的精度。本发明专利技术可广泛应用于网络安全领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络安全领域，尤其涉及一种基于联邦学习与联盟博弈的威胁情报分类方法及系统。

技术介绍

1、在数字化时代，传统的威胁情报生产和分析方法大多基于集中式数据处理模式，这种模式不仅潜在地暴露数据隐私泄露的威胁，而且在应对日益庞大且复杂的数据流量时常常显得捉襟见肘。正是这些挑战催生了联邦学习这一新兴的分布式学习方法的诞生，并迅速在保护数据隐私领域引起了行业的广泛重视。

2、区别于传统的机器学习框架，该框架通常需要从终端设备中汇聚海量数据到中央服务器以训练模型，联邦学习优雅地规避了直接数据汇集的需求。它允许终端设备保留各自的数据，仅在本地进行模型训练，然后将模型更新分享给中央服务器，这一创新使得数据隐私得到了前所未有的保护。

3、然而，在现实世界中，设备间的数据分布往往呈现出显著的异质性。比如，在网络安全领域内，不同地域或机构所面临的网络威胁有着独特的差异性——某些地区可能频繁遭遇恶意网址攻击，而另一些则可能多数接触到安全的网络环境。这种数据的非独立同分布(non-iid)性质对于构建一个高效的联邦学习二分类模型构成了挑战，尤其是当我们试图将这些分散的威胁情报统一到一个模型中去时。为了克服这一难题，虽然已有研究提出了多种设备采样策略来辅助中央服务器的决策，但仍然需要更巧妙的算法来应对设备间数据分布不均的问题，从而保证全局模型的泛化能力和分类准确性。

技术实现思路

1、有鉴于此，为了解决现有威胁情报分类方法中由于联邦学习模型的精度难以提高，进而导致分类不准确

2、基于textcnn网络构建分类模型；

3、将不同设备形成联盟，结合联邦学习，对所述分类模型进行训练，得到训练完成的分类模型；

4、将待测威胁情报数据输入至所述训练完成的分类模型，得到分类结果。

5、其中，所述分类模型包括预处理单元、特征提取单元、特征处理单元和分类单元。

6、首先，对于具有异构数据的联邦学习，我们引入了推土机距离(emd)来量化数据异质性，它测量将数据从一个分布移动到另一个分布所需的最小平均距离并评估两个概率分布之间的相似性。其次，在具有异构数据的联邦学习中，设备之间的交互也会影响联邦学习模型的性能。因此，我们提出了一种新的具有异构数据的联邦学习联盟框架，具有互补数据分布的设备可以合作形成联盟。在设备联盟中，每个设备首先执行本地训练，然后通过d2d过程将与联盟中的其他设备共享模型更新，直到达成共识模型。当中央服务器选择该联盟时，联盟将共识模型上传到中央服务器进行全局聚合。在该框架中，选定的设备联盟通常具有更加平衡的数据。在形成联盟时，设备是合理的，自私地选择他们的联盟形成行为来最大化自己的利益。设备联盟在数据异构性和本地数据样本的数量上是不同的。例如，选择具有大量本地数据样本和少量emd的设备联盟可以提高模型的准确性(模型精度)，当选择少量数据样本的设备联盟，较小的emd可能会降低模型的精度。

7、我们考虑启动联邦学习过程的中央服务器，并从设备集k中选择设备来训练由参数向量w表示的全局模型。每一个设备k∈k都有一个本地数据集，具有nk个本地数据样本，并且设备具有不同的数据分布。中央服务器选择设备的一个子集s进行模型训练。联邦学习的训练目标是获得最优的全局模型w*，可以最小化全局损失函数

8、fk(ω)是设备k的局部损失函数具体来说，我们考虑多分类任务或二分类任务，我们用(x,y)来表示训练数据样本，其中x是属于紧凑空间x的特征向量，y是标签集y＝{1，2…,c}。设备具有异构数据分布。对于设备k∈k，我们通过pk(y＝i)表示一个数据样本是标签i的概率。在参数向量w下，全局模型以fi(x,ω)(学习模型的映射函数)的概率预测输入样本x是类i∈y。

9、定义1(emd)：对于每一个设备k∈k，emd测量其数据分布与总体数据集的数据分布之间的差异，即：

10、

11、直观上来看，当设备的数据分布更多地偏离总体分布时，emd更大。

12、定义2(weight emd)：对于所选设备的集合s，加权emd是集合s中所有设备的加权平均值emd，即：

13、

14、我们可以看到所选设备的加权emd取决于emd和本地数据样本的数量。如果一个设备有更多的数据样本，它的emd对加权emd的影响会更大。

15、定义3(gemd)：我们将设备所形成的设备联盟的数量记为z，并且用hk表示设备k的联盟形成决策，其中hk＝z表示设备k连接设备联盟z∈z。在这种情况下，设备联盟z中的设备数量为lz。对于每一个设备联盟z∈z，gemd测量设备联盟数据分布与总体数据集的数据分布之间的差异，即：

16、

17、当设备联盟形成后。设备联盟对于服务器来说是一个整体，在计算加权emd时，我们应当将每个设备k的emd替换为每个选定设备联盟的gemd。

18、在一些实施例中，所述将待测威胁情报数据输入至所述训练完成的分类模型，得到分类结果这一步骤，其具体包括：

19、将待测威胁情报数据输入至所述训练完成的分类模型；

20、基于所述预处理单元对所述待测威胁情报数据进行转码和标准化处理，得到预处理后的数据；

21、基于所述特征提取单元对所述预处理后的数据进行特征提取，得到初步特征；

22、基于所述特征处理单元对所述初步特征进行维度减少处理，得到最终特征；

23、基于所述分类单元，根据所述最终特征输出概率分布，得到分类结果。

24、通过该优选步骤，设计了以textcnn网络为核心的二分类检测模型，对待测数据进行分类。

25、在一些实施例中，所述特征处理单元包括池化层和归一化层，所述分类单元包括dropout层和线性层。

26、在一些实施例中，所述将不同设备形成联盟具体为：基于联盟博弈算法，每个设备最大化自身利益，与其他设备形成联盟。

27、在一些实施例中，所述联盟博弈涉及分区，所述分区的规则：

28、定义联盟中的设备集；

29、具体地，将设备联盟z中的设备集表示为sz,即sz＝{k:hk＝z,k∈k}。

30、基于预设的偏好顺序，将设备的自私联盟形成交互建模为联盟形成博弈；

31、所述预设的偏好顺序为：

32、对于某个设备，其加入的联盟所获得的收益不小于加入另一联盟所获得的收益；

33、对于某个设备，其加入联盟后不会造成该联盟中其他设备的收益减少。

34、定义偏好顺序：对于设备k，它对两个设备联盟sz和sz'的偏好顺序是，sz＞sz'；设备k加入sz所获得的收益不小于加入sz'所获得的收益；设备k的加入不会造成sz中其他设备的收益减少。

35、在一些实施例中，执行联盟博本文档来自技高网...

【技术保护点】

1.一种基于联邦学习与联盟博弈的威胁情报分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于联邦学习与联盟博弈的威胁情报分类方法，其特征在于，所述分类模型包括预处理单元、特征提取单元、特征处理单元和分类单元。

3.根据权利要求2所述一种基于联邦学习与联盟博弈的威胁情报分类方法，其特征在于，所述将待测威胁情报数据输入至所述训练完成的分类模型，得到分类结果这一步骤，其具体包括：

4.根据权利要求3所述一种基于联邦学习与联盟博弈的威胁情报分类方法，其特征在于，所述特征处理单元包括池化层和归一化层，所述分类单元包括Dropout层和线性层。

5.根据权利要求1所述一种基于联邦学习与联盟博弈的威胁情报分类方法，其特征在于，所述将不同设备形成联盟具体为：基于联盟博弈算法，每个设备最大化自身利益，与其他设备形成联盟。

6.根据权利要求5所述一种基于联邦学习与联盟博弈的威胁情报分类方法，其特征在于，所述联盟博弈涉及分区，所述分区的规则：

7.根据权利要求6所述一种基于联邦学习与联盟博弈的威胁情报分类方法，其特

8.一种基于联邦学习与联盟博弈的威胁情报分类系统，其特征在于，包括：

9.一种基于联邦学习与联盟博弈的威胁情报分类装置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于联邦学习与联盟博弈的威胁情报分类方法，其特征在于，包括以下步骤：

4.根据权利要求3所述一种基于联邦学习与联盟博弈的威胁情报分类方法，其特征在于，所述特征处理单元包括池化层和归一化层，所述分类单元包括dropout层和线性层。

5.根据权利...

【专利技术属性】
技术研发人员：马倩，陈旭，唐志昊，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人