网络拥塞控制方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24893638 阅读:59 留言:0更新日期:2020-07-14 18:19
本发明专利技术涉及网络拥塞控制方法、装置、计算机设备及存储介质,该方法包括获取执行奖励矩阵,并进行初始化;获取最优奖励矩阵,并进行初始化;在增强算法中的策略中随机选择当前链路的初始状态;在当前链路的初始状态下,在数据流需要经过的链路中选择对应奖励最大的动作,根据所选择的动作对数据流分配对应的速率,以得到新的执行奖励矩阵及新的链路状态;根据新的执行奖励矩阵进行迭代,以得到新的最优奖励矩阵;判断训练集是否达到上限;若是,则采用使用BP神经网络逼近器逼近新的最优奖励矩阵所有的元素所对应的最优奖励值,以得到目标矩阵;并进行网络拥塞控制。本发明专利技术实现在训练集已经达到最大值的情况下继续进行训练,避免网络拥塞的发生。

【技术实现步骤摘要】
网络拥塞控制方法、装置、计算机设备及存储介质
本专利技术涉及网络通信
,更具体地说是指网络拥塞控制方法、装置、计算机设备及存储介质。
技术介绍
随着云计算的发展,数据中心内部通信业务急剧增加、网络流量显著增长,数据中心网络的带宽很难满足密集型应用的带宽需求,面临着网络拥塞的风险。传统的计算机网络是分布式的复杂结构,拥塞算法的设计极为困难,很难满足当前需求,SDN(软件定义网络,SoftwareDefinedNetwork)的出现和发展使数据中心网络拥塞控制的问题得到了新的解决办法。强化学习是一种无模型的学习算法,在强化学习的模型中,智能体可以与环境交互进行学习,做出很好的决策。网络拥塞控制是一个决策的过程。强化学习解决问题的侧重点就是决策控制,Q-Learning算法是强化学习的一种经典的算法,对于强化学习算法的发展具有重要意义,使用Q-Learning可以使智能体在无模型的情况下学习,在现实环境中,由于网络拓扑复杂,Q-learning算法通常会面临“维数灾”问题,由于Q-learning算法单一学习周期的值函数估计表Q(S,a本文档来自技高网...

【技术保护点】
1.网络拥塞控制方法,其特征在于,包括:/n获取为每条数据流分配的速率后得到的奖励所构成的矩阵,以得到执行奖励矩阵,并对所述执行奖励矩阵进行初始化;/n获取每条数据流分配的速率所对应的最大奖励构成的矩阵,以得到最优奖励矩阵,并对所述最优奖励矩阵进行初始化;/n在增强算法中的策略中随机选择当前链路的初始状态;/n在当前链路的初始状态下,在数据流需要经过的链路中选择对应奖励最大的动作,根据所选择的动作对数据流分配对应的速率,以得到新的执行奖励矩阵以及新的链路状态;/n根据新的执行奖励矩阵进行迭代,以得到新的最优奖励矩阵;/n判断链路的所有状态以及数据流分配对应的速率所构成的训练集是否达到上限;/n...

【技术特征摘要】
1.网络拥塞控制方法,其特征在于,包括:
获取为每条数据流分配的速率后得到的奖励所构成的矩阵,以得到执行奖励矩阵,并对所述执行奖励矩阵进行初始化;
获取每条数据流分配的速率所对应的最大奖励构成的矩阵,以得到最优奖励矩阵,并对所述最优奖励矩阵进行初始化;
在增强算法中的策略中随机选择当前链路的初始状态;
在当前链路的初始状态下,在数据流需要经过的链路中选择对应奖励最大的动作,根据所选择的动作对数据流分配对应的速率,以得到新的执行奖励矩阵以及新的链路状态;
根据新的执行奖励矩阵进行迭代,以得到新的最优奖励矩阵;
判断链路的所有状态以及数据流分配对应的速率所构成的训练集是否达到上限;
若链路的所有状态以及数据流分配对应的速率所构成的训练集达到上限,则采用使用BP神经网络逼近器逼近新的最优奖励矩阵所有的元素所对应的最优奖励值,以得到目标矩阵;
根据所述目标矩阵进行网络拥塞控制;
若链路的所有状态以及数据流分配对应的速率所构成的训练集未达到上限,则返回所述在增强算法中的策略中随机选择当前链路的初始状态;
其中,所述BP神经网络逼近器是通过链路的所有状态以及数据流分配对应的速率所构成的训练集训练神经网络所得的。


2.根据权利要求1所述的网络拥塞控制方法,其特征在于,所述神经网络包括输入层、隐含层和输出层。


3.根据权利要求2所述的网络拥塞控制方法,其特征在于,所述BP神经网络逼近器是通过链路的所有状态以及数据流分配对应的速率所构成的训练集训练神经网络所得的,包括:
获取链路的所有状态以及数据流分配对应的速率,以得到训练集;
将所述训练集中某一样本输入到神经网络的输入层,进行正向计算,以得到期望奖励值;
计算所述样本对应的最优奖励矩阵中元素与期望奖励值的误差;
判断所述误差是否小于阈值;
若所述误差不小于阈值,则使用梯度下降学习法进行神经网络的权重更新,并执行所述将所述训练集中某一样本输入到神经网络的输入层,进行正向计算,以得到期望奖励值;
若所述误差小于阈值,则判断所述训练集的样本是否全部输入到神经网络的输入层;
若所述训练集的样本是全部输入到神经网络的输入层,则输出所述期望奖励值,以构成目标矩阵;
若所述训练集的样本未全部输入到神经网络的输入层,则执行所述将所述训练集中某一样本输入到神经网络的输入层,进行正向计算,以得到期望奖励值。


4.根据权利要求3所述的网络拥塞控制方法,其特征在于,所述使用梯度下降学习法进行神经网络的权重更新,包括:
采用进行神经网络的权重更新,其中,W′表示下一状态更新的神经网络的所有权重的参数向量,W表示当前神经网络的所有权重的参数向量,αN表示神经网络的学习率,E为样本对应的最优奖励矩阵中元素与期望奖励值的误差。


5.根据权利要求1所述的网络拥塞控制方法,其特征在于,所述根据所述目标矩阵进行网络拥塞控制之后,还包括:
判断增强学习算法中的...

【专利技术属性】
技术研发人员:周勇熊俊杰卿济民杨锐斌徐本安苏聪
申请(专利权)人:深圳市赛为智能股份有限公司马鞍山学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1