一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法及模型技术

技术编号：41070458 阅读：4 留言：0更新日期：2024-04-24 11:26

本发明专利技术公开了一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法及模型，包括：考虑到不稳定联邦边缘学习场景中部分移动车载设备因链路不稳定或者性能不足等原因而导致掉落，进而引发设备选择和资源分配不合理问题。首先，本发明专利技术建立了移动车载设备的本地计算模型、传输模型、掉落模型及掉队模型，并以系统可靠性和系统学习成本之间的权衡为优化目标。进一步地，本发明专利技术设计了基于两阶段深度强化学习的资源优化方法，以获取最佳的设备选择及资源分配方案，从而提高系统的可靠性，并降低系统学习成本。通过对设备的选择策略和资源的分配策略进行优化，使得系统能够在不稳定联邦边缘学习环境中取得更加鲁棒和高效的性能表现。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于联邦边缘学习的性能优化，具体是一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法及模型，旨在增强系统在不稳定边缘学习环境中的鲁棒性，并有效解决由于离散效应引起的不合理资源分配问题。

技术介绍

1、联邦学习(fl)是一种独特的分布式机器学习方法，它允许本地设备与服务器通信时仅传输模型参数，而无需在中央服务器中收集本地设备的数据，从而极大地增强了数据隐私的保护。与此同时，边缘计算旨在将云服务中心的任务卸载到边缘，以减轻云服务中心的负担。在移动边缘网络中，存在大量携带数据并具备移动特性的边缘计算设备，以及拥有一定计算能力的边缘服务器。这一移动边缘网络的独有特性推动了边缘计算与联邦学习的融合，最终形成了所谓的“边缘智能”。

2、在边缘网络中实施联邦学习仍然面临多项挑战，包括离散效应、成本消耗问题和通信效率问题等。其中，离散效应包括两个主要问题，即掉落问题和掉队问题。掉落问题指的是在整个学习过程中，由于通信中断、链路不稳定或性能不佳等不可控因素，导致边缘设备无法完成联邦学习任务。而掉队问题则是指在学习过程中，由于边缘设备自身数据量较大或可利用资源不足，导致学习时间过长。

3、大多数研究常常假设系统不存在掉落问题，但实际上，掉落问题是现实中不可避免的，并且在不稳定的联邦边缘学习场景下尤为突出。由于离散效应中的掉落问题对系统造成严重影响，且部分设备的掉落状态无法提前预知，因此解决这一问题具有一定的难度。

4、目前，针对不稳定联邦边缘学习环境，主要集中在研究不稳定的本地计算阶段或通

5、综合以上情况，本专利技术提出一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法。该方法旨在增强系统在不稳定边缘学习环境中的鲁棒性，并有效解决由于离散效应引起的不合理资源分配问题，以避免出现高时延和高能耗的情况。

技术实现思路

1、针对上述问题，本专利技术提出一种不稳定联邦边缘学习场景下基于两阶段深度强化学习的资源优化方法，旨在增强系统在不稳定边缘学习环境中的鲁棒性，并有效解决由于离散效应引起的不合理资源分配问题，以避免出现高时延和高能耗的情况。本专利技术方案不仅可以适应不稳定联邦边缘学习场景，同时也解决了资源分配不均衡问题。

2、为了实现上述的目的，本专利技术提供了一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，包括：

3、步骤1，建立一个不稳定联邦边缘学习场景模型及移动车载设备的移动模型；

4、步骤2，构建移动车载设备在联邦学习过程中的本地计算模型、传输模型、掉落模型及掉队模型；

5、步骤3，根据步骤2建立的模型，以系统可靠性和系统学习成本之间的权衡为优化目标构建设备选择及资源分配的优化模型；

6、步骤4，根据优化问题模型构建马尔可夫决策模型，并精心设计奖励函数；

7、步骤5，根据步骤4建立的马尔可夫模型，采用基于两阶段双延迟深度确定性策略梯度(td3)方法，以获得最佳的设备选择及资源分配方案。

8、步骤6：通过步骤5中的训练好的网络获得最佳设备选择及资源分配方案。

9、进一步，步骤1建立的不稳定联邦边缘学习场景模型及移动车载设备的移动模型的具体过程为：

10、1)场景模型：

11、本专利技术考虑城市环境下的三层车载边缘计算(vec)场景，该场景由云服务器、若干个边缘服务器以及若干辆移动车载设备组成。假设某段双向道路旁有m个边缘服务器，并且边缘服务器之间的覆盖范围相切。本专利技术注重移动车载设备和边缘服务器之间的学习过程，其中移动车载设备通过无线链路与边缘服务器进行通信，且位于边缘服务器的覆盖范围内的移动车载设备只能与该边缘服务器建立连接。

12、2)移动车载设备的移动模型：

13、假设道路两侧各有一个入口和出口，在时隙t到达每个入口的移动车载设备数量服从泊松分布。一旦移动车载设备进入边缘服务器的覆盖范围内，它就向边缘服务器m发送请求信息。进一步假设道路上的移动车载设备以不同的速度匀速移动，且它们的速度是独立且同分布的。移动车载设备n的速度表示为其服从截断高斯分布。那么，移动车载设备n在当前边缘服务器m的覆盖范围中停留时间为：

14、

15、其中，rm为边缘服务器m覆盖范围的直径，为移动车载设备n在联邦学习第t轮的起始位置与边缘服务器m的入口之间的距离。

16、进一步，步骤2构建移动车载设备在联邦学习过程中的本地计算模型、传输模型、掉落模型及掉队模型的具体过程为：

17、1)移动车载设备的本地计算模型：

18、假设移动车载设备所带的每个数据样本的大小一样，令|dt(n)|代表在t轮时移动车载设备n收集的数据量大小；cn表示移动车载设备n处理一个样本所需的cpu周期；k表示在t轮时移动车载设备n在本地训练的次数，移动车载设备n完成该次数的本地训练后，再将模型参数传给边缘服务器；表示在t轮时边缘服务器给移动车载设备n分配的用于本地计算的cpu频率。

19、在t轮时移动车载设备n的本地计算时间为：

20、

21、相应地，在t轮时移动车载设备n的本地计算能耗ent,comp为：

22、

23、其中，αn/2为其计算芯片组的有效电容系数的常数。

24、2)移动车载设备的传输模型：

25、假设在t轮时移动车载设备n位于边缘服务器m的覆盖范围内，令表示在t轮时边缘服务器m给移动车载设备n提供的上行链路带宽。因此，在移动车载设备和边缘服务器之间的上行链路中，信噪比可以表示为：

26、

27、其中，表示移动车载设备n的传输功率，为在t轮时移动车载设备n与边缘服务器m之间的无线信道增益，其取决于移动车载设备位置的移动车载设备n和边缘服务器m之间的距离，n0为噪声功率谱密度。

28、移动车载设备n和边缘服务器m之间的上传速率为：

29、

30、移动车载设备n和边缘服务器m之间的上行传输时延为：

31、

32、其中，为移动车载设备n上传的模型参数的大小。

33、移动车载设备n传输其本地模型参数所消耗的能耗为：

34、

35、3)移动车载设备的掉落模型：

36、在不稳定联邦边缘学习场景中，掉落问题是不可控的，并且移动车载设备在本地计算阶段或者传输阶段都可能会出现掉落现象，进而使部分移动车载设备无法成功上传模型参数。本专利技术引入符号和分别用于表示本文档来自技高网...

【技术保护点】

1.一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤1的具体实现包括：

3.根据权利要求2所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤2的具体实现包括：

4.根据权利要求3所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤3的设备选择及资源分配的优化模型如下：

5.根据权利要求1所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤4的具体实现包括：

6.根据权利要求1所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤5的具体实现包括：

7.根据权利要求6所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤5.3中最小带宽的计算方式如下：

>8.根据权利要求6所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤5.7的实现包括：

9.根据权利要求6所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤5.8的实现包括：

10.一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化模型，其特征在于，所述模型包括权利要求1-9任一项所述的步骤1-4的模型。

...

【技术特征摘要】

1.一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤1的具体实现包括：

3.根据权利要求2所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤2的具体实现包括：

5.根据权利要求1所述的一种不稳定联邦边缘学习环境下基于两阶段深度强化学习的资源优化方法，其特征在于，所述步骤4的具体实现包括：

6.根据权利...

【专利技术属性】
技术研发人员：李亚苇，冯丽，
申请(专利权)人：江苏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人