一种基于经验回放与深度Q学习的车载网网络切片选择方法技术

技术编号：40409851 阅读：3 留言：0更新日期：2024-02-20 22:29

针对现有技术存在的问题，本发明专利技术公开了一种大批量经验回放深度Q学习的网络切片选择方法，针对网络切片选择模型。本发明专利技术主要包含四个部分，第一，动作选择策略和经验池的引入，增强了学习的鲁棒性，降低了训练数据之间的相关性；第二，大批量经验回放技术选择了更加重要的经验，提高了经验的利用率和算法的性能；第三，限制损失计算函数的使用，提高了网络训练的效率；第四，基于以上三点提出了一种改进的深度Q学习的训练方法，使得系统决策效率更高，网络效用更好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于无线通信领域，通过网络切片技术对通讯网络切片，从而为用户提供针对性的服务。大批量经验回放和深度q学习相结合，提高了网络的运行效率。大批量经验回放选取更精确的网络状态，深度q学习选择了更优的网络切片种类。

技术介绍

1、在解决车载网内网络切片资源分配的问题中，现有的深度q学习算法存在训练数据相关性较大，学习抗干扰能力弱，训练效率低等问题，对算法性能造成了影响。现有的方法搭建神经网络，以提取网络状态的对应特征，根据网络输出的每个动作的奖励值对不同状态下的网络切片进行选择，以达到较高的总体效用值。然而，由于这些方法选择了较为简单的网络结构，并且在网络训练的过程中，使用了最基础的训练方法。这就会导致神经网络在训练过程中会出现训练数据相关性过高和网络训练效率低的问题，不能更准确地实现预测功能。在深度学习和强化学习相结合的过程中，神经网络对奖励q值进行预测以解决庞大状态空间导致的q值无法计算的问题。如果不能高效地计算奖励q值，就不能在网络切片资源分配时做出更优的选择，从而导致网络整体效用的降低。本方法对网络效率适当地提升，对网络整体效用的提升有较大帮助。

2、本方法应用在车载网的网络资源分配领域中。车载网是一种专门设计用于车辆和移动设备之间通信的网络，主要任务是将信息传输到移动设备，达到信号全面覆盖的目标。由于其具有高度的灵活性和移动性，因此需要采取特定的通信协议和技术来解决这些问题，以确保可靠的通信和数据传输。本方法基于网络切片技术和深度强化学习算法，旨在解决车载网中如何充分提高网络整体性能这一难题。

>3、本专利技术中采取的大批量经验回放技术筛选了更重要的经验，提高了神经网络训练的效率。

技术实现思路

1、针对现有技术存在的问题，本专利技术公开了一种大批量经验回放深度q学习的网络切片选择方法，针对网络切片选择模型。本专利技术主要包含四个部分，第一，动作选择策略和经验池的引入，增强了学习的鲁棒性，降低了训练数据之间的相关性；第二，大批量经验回放技术选择了更加重要的经验，提高了经验的利用率和算法的性能；第三，限制损失计算函数的使用，提高了网络训练的效率；第四，基于以上三点提出了一种改进的深度q学习的训练方法，使得系统决策效率更高，网络效用更好。

2、一、本专利技术公布的动作选择策略和经验池的引入，在利用高效策略的同时探索了潜在的高效策略，并且降低了训练数据之间的相关性，加快了神经网络的收敛速度。这一部分主要分为两个步骤：

3、(1)选择动作时，有设定概率在随机和基于q值两种策略中选择一项，然后更新状态和所选动作对应的奖励值并组成四元组。算法会取随机参数ε(0<ε<1)，当随机参数ε小于设定概率时，系统随机选择动作ai；当随机参数大于等于设定概率时，系统会选择神经网络计算的最大q值进行选择对应动作。在动作选择之后，更新当前状态s→s′，并计算选择动作的奖励值r，将四个参数组成四元组(s,a,s′,r)为一条经验。

4、(2)将所得四元组存储到经验池当中。根据所选动作更新完状态并得到四元组(s,a,s′,r)后，将这个四元组当做一条经验存储到经验池当中。如此往复，直至经验池的大小达到限定数量。

5、二、本专利技术公布的大批量经验回放技术，选择了更加重要的经验，提高了经验的利用率和算法的性能。所提出的经验回放技术主要分为三个步骤：

6、(1)从经验池中采集经验并更新经验q值。当若干条经验被存放到经验池中，我们专利技术的方法会从经验池采集一个大批量的经验集合，记为mb(b为小批量的大小)。然后，根据q值更新公式更新采集经验的q值。将下一状态的q表减去当前q表得到新的表，取新表中的最大q值乘以折扣率γ，再加上当前的奖励值，将所得值乘以学习率α作为当前动作的q值增量更新当前q值。

7、(2)根据q值计算td误差。更新完q值之后，更新后的q值减去未更新的q值取绝对值可以得到td误差，计算所有经验的td误差。

8、(3)根据td误差对经验的重要程度进行判断，从采集经验中挑选小批量经验样本。根据经验的td误差对所有经验的重要程度进行判断，较高重要程度的经验样本会有较高的概率被采集训练。根据采样规律从mb条经验中选择b条经验样本提供给网络训练。

9、三、本专利技术公布了限制损失函数的计算，用来提高神经网络的训练效率。计算过程具体包括四个步骤：

10、(1)使用当前q值和更新后的q值计算均方误差。神经网络计算出每个动作对应的q值之后，根据所选动作更新对应的q值，计算更新后的q值与当前q值的均方误差ms。

11、(2)计算q表之间的最大差异。取当前q值中的最大值与更新后q值中的最大值相减，得到q值之间的最大差异qd。由于有n组经验，会有n个最大差异qd。

12、(3)根据qd计算huber损失。首先取qd的绝对值，对该值是否小于等于1.0进行判断：如果该值小于等于1.0则将qd的平方除以2代替原值；如果该值大于1.0，则将qd绝对值减去0.5代替原值。这样就可以得到n组经验的huber损失组。

13、(4)使用ms和huber损失计算最终的损失值。将计算得到的huber损失组取平均值后乘以0.1加上ms，对于所得值求平方并取平均值即得到最终的损失。

14、四、本专利技术公布了每个时间步中整个算法的运行流程分为如下三个阶段及其详细执行过程。

15、(1)参数的初始化和处理阶段：将切片请求队列和已分配请求数组成状态，系统将当前的状态作为参考，根据动作选择机制选择相应的动作，动作选择之后会更新状态并计算所选动作的奖励值，将这次选择动作中的状态、动作、更新后的状态、奖励值组成的四元组作为一个经验存储到经验池d当中。

16、(2)神经网络训练阶段：在经验池存储到设定数量后，根据大批量经验回放算法对经验池进行筛选，得到b条网络训练需要的经验，并使用限制损失函数对神经网络进行梯度下降训练。

17、(3)网络切片选择阶段：在更新后状态中，使用训练后的神经网络计算m个动作的奖励q值，并选择最大奖励的动作作为网络切片的选择并保存。重复第二步和第三步的流程，直至分配网络资源达到限制条件。最后，将当前时间步的参数切片请求队列更新至下一个时间步。

18、本专利技术中系统的具体运行流程如下：

19、

20、

21、本专利技术的另一目的在于提供网络切片选择的计算机程序。

22、本专利技术的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的车载网网络切片选择方法。

23、本专利技术的另一目的在于提供一种实现所述的车载网网络切片选择控制系统。

24、综上所述，本专利技术的优点及效果为：

25、本专利技术是一种改进的网络切片选择算法，涉及了一个使用大批量经验回放的深度q学习算法。从原方法来看，我们提出了一种动态调整选择策略来对网络切片的选择进行优化，该方法在本专利技术的优本文档来自技高网...

【技术保护点】

1.一种基于经验回放与深度Q学习的车载网网络切片选择方法公布了一种适用于车载网络切片选择的大批量经验回放和深度Q学习的网络切片选择方法，其特征在于，动作选择策略和经验池的引入，增强了学习的鲁棒性，降低了训练数据之间的相关性；大批量经验回放技术选择了更加重要的经验，提高了经验的利用率和算法的性能；限制损失计算函数的使用，提高了网络训练的效率；基于以上三点改进提出了一种改进的深度Q学习的训练方法，该方法的具体过程如下：

2.根据权利要求1所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，动作选择策略和经验池的引入，在利用高效策略的同时探索了潜在的高效策略，并且降低了训练数据之间的相关性，加快了神经网络的收敛速度。

3.根据权利要求1与权利2所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，选择动作时，有设定概率在随机和基于Q值两种策略中选择一项，然后更新状态和所选动作对应的奖励值并组成四元组。算法会取随机参数ε(0<ε<1)，当随机参数ε小于设定概率时，系统随机选择动作ai；当随机参数大于等于设定概率时，

4.根据权利要求1所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，大批量经验回放技术，选择了更加重要的经验，提高了经验的利用率和算法的性能。

5.根据权利要求1与权利要求4所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，在经验池中采集经验并更新经验Q值时，首先从经验池采集一个大批量的经验集合，记为mB(B为小批量的大小)，然后，根据Q值更新公式更新采集经验的Q值，将下一状态的Q表减去当前Q表得到新的表，取新表中的最大Q值乘以折扣率γ，再加上当前的奖励值，将所得值乘以学习率α作为当前动作的Q值增量更新当前Q值。

6.根据权利要求1与权利要求4所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，更新后的Q值减去未更新的Q值取绝对值可以得到TD误差，计算所有经验的TD误差，根据TD误差对经验的重要程度进行判断，从采集经验中挑选小批量经验样本参与模型的训练。

7.根据权利要求1所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，使用均方误差MS和huber损失计算最终的损失值。

8.根据权利要求1与权利要求7所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法，其特征在于，神经网络计算出每个动作对应的Q值之后，根据所选动作更新对应的Q值，计算更新后的Q值与当前Q值的均方误差MS；取当前Q值中的最大值与更新后Q值中的最大值相减，得到Q值之间的最大差异QD，由于有N组经验，会有N个最大差异QD；首先取QD的绝对值，对该值是否小于等于1.0进行判断：如果该值小于等于1.0则将QD的平方除以2代替原值；如果该值大于1.0，则将QD绝对值减去0.5代替原值，这样就可以得到N组经验的huber损失组；将计算得到的huber损失组取平均值后乘以0.1加上MS，对于所得值求平方并取平均值即得到最终的损失。

9.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法。

10.一种实现权利要求1所述的一种基于经验回放与深度Q学习的车载网网络切片选择方法。

...

【技术特征摘要】

1.一种基于经验回放与深度q学习的车载网网络切片选择方法公布了一种适用于车载网络切片选择的大批量经验回放和深度q学习的网络切片选择方法，其特征在于，动作选择策略和经验池的引入，增强了学习的鲁棒性，降低了训练数据之间的相关性；大批量经验回放技术选择了更加重要的经验，提高了经验的利用率和算法的性能；限制损失计算函数的使用，提高了网络训练的效率；基于以上三点改进提出了一种改进的深度q学习的训练方法，该方法的具体过程如下：

2.根据权利要求1所述的一种基于经验回放与深度q学习的车载网网络切片选择方法，其特征在于，动作选择策略和经验池的引入，在利用高效策略的同时探索了潜在的高效策略，并且降低了训练数据之间的相关性，加快了神经网络的收敛速度。

3.根据权利要求1与权利2所述的一种基于经验回放与深度q学习的车载网网络切片选择方法，其特征在于，选择动作时，有设定概率在随机和基于q值两种策略中选择一项，然后更新状态和所选动作对应的奖励值并组成四元组。算法会取随机参数ε(0<ε<1)，当随机参数ε小于设定概率时，系统随机选择动作ai；当随机参数大于等于设定概率时，系统会选择神经网络计算的最大q值进行选择对应动作，进而更新当前状态s→s′，并计算选择动作的奖励值r，将四个参数组成四元组(s,a,s′,r)为一条经验，加入到经验池，直至经验池的大小达到限定数量。

4.根据权利要求1所述的一种基于经验回放与深度q学习的车载网网络切片选择方法，其特征在于，大批量经验回放技术，选择了更加重要的经验，提高了经验的利用率和算法的性能。

5.根据权利要求1与权利要求4所述的一种基于经验回放与深度q学习的车载网网络切片选择方法，其特征在于，在经验池中采集经验并更新经验q值时，首先从经验池采集一个大批量的经验集...

【专利技术属性】
技术研发人员：焦朝俊，吴国民，徐秀芳，
申请(专利权)人：盐城工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人