一种拥塞控制方法及装置制造方法及图纸

技术编号:26770809 阅读:33 留言:0更新日期:2020-12-18 23:49
本申请提供一种拥塞控制方法及装置,该方法包括:对包括有Actor网络模型和Critic网络模型、且用于对网络进行拥塞控制的目标强化学习模型进行迭代训练,得到训练好的强化学习模型;根据训练好的强化学习模型,对目标网络进行拥塞控制。本申请实施例,可以适用于多个网络环境,提高了使用的灵活性。

【技术实现步骤摘要】
一种拥塞控制方法及装置
本申请涉及
,尤其涉及一种拥塞控制方法及装置。
技术介绍
目前,计算机网络正得到迅猛的发展,网络用户规模也急剧上升,随之而来的网络拥塞问题越来越普遍。之所以出现这种问题,主要是由于在一定时间段内到达网络设备的数据包过多,网络设备无法及时处理这些数据包,都堆积在缓冲区内导致的。一旦出现这种问题,会造成网络传输时延增加,网络传输效率急剧下降,严重时还可能出现死锁现象,导致网络瘫痪。所以,在传输过程中,对网络进行拥塞控制是很必要的。在现有的一种实现方式中,可以采用QTCP(Q-learningbasedTCP,基于Q-learning的TCP拥塞控制协议)算法对网络进行拥塞控制,但是,这种控制方式仅适用于单一的网络环境下,进而导致使用的灵活性较差。
技术实现思路
为克服相关技术中存在的问题,本申请提供了一种拥塞控制方法及装置。根据本申请实施例的第一方面,提供一种拥塞控制方法,所述方法包括:对包括有Actor网络模型和Critic网络模型、且用于对网络进行拥塞控制的目标强本文档来自技高网...

【技术保护点】
1.一种拥塞控制方法,其特征在于,所述方法包括:/n对包括有Actor网络模型和Critic网络模型、且用于对网络进行拥塞控制的目标强化学习模型进行迭代训练,得到训练好的强化学习模型;/n根据训练好的强化学习模型,对目标网络进行拥塞控制;/n其中,通过以下方式得到训练好的强化学习模型:/n针对设定的迭代轮次中的每一轮次,均执行以下操作:/n针对目标强化学习模型对应的结构与其相同的每个子模型,将该子模型中的Actor网络模型的当前模型参数赋为该轮次中目标强化学习模型中的Actor网络模型的最新模型参数,将该子模型中的Critic网络模型的当前模型参数赋为该轮次中目标强化学习模型中的Critic网...

【技术特征摘要】
1.一种拥塞控制方法,其特征在于,所述方法包括:
对包括有Actor网络模型和Critic网络模型、且用于对网络进行拥塞控制的目标强化学习模型进行迭代训练,得到训练好的强化学习模型;
根据训练好的强化学习模型,对目标网络进行拥塞控制;
其中,通过以下方式得到训练好的强化学习模型:
针对设定的迭代轮次中的每一轮次,均执行以下操作:
针对目标强化学习模型对应的结构与其相同的每个子模型,将该子模型中的Actor网络模型的当前模型参数赋为该轮次中目标强化学习模型中的Actor网络模型的最新模型参数,将该子模型中的Critic网络模型的当前模型参数赋为该轮次中目标强化学习模型中的Critic网络模型的最新模型参数;
根据该轮次中获取的该子模型对应的网络环境中的指定网络设备的状态数据、和针对该子模型设置的单次迭代的时间点集合中的时间点的总个数,确定该子模型中的Actor网络模型的梯度数据以及该子模型中的Critic网络模型的梯度数据,其中,不同的子模型对应的网络环境不同;
基于所有子模型中的Actor网络模型的梯度数据,更新该轮次中目标强化学习模型中的Actor网络模型的模型参数,以及基于所有子模型中的Critic网络模型的梯度数据,更新该轮次中目标强化学习模型中的Critic网络模型的模型参数;
将最后一轮次得到的具有最新模型参数的目标强化学习模型,确定为训练好的强化学习模型。


2.根据权利要求1所述的方法,其特征在于,所述状态数据至少包括:所述指定网络设备在指定时间段内发送数据包的数量与接收到对应的响应数据包的数量的比值、所述指定网络设备在所述指定时间段内接收到的数据包的平均延迟值与在历史的所述指定时间段内接收到的数据包的最小平均延迟值的比值、以及所述指定网络设备在所述指定时间段内接收到的数据包的延迟梯度。


3.根据权利要求1或2所述的方法,其特征在于,通过以下方式确定该子模型中Actor网络模型的梯度数据以及每个子模型中Critic网络模型的梯度数据:
从获取的状态数据中,获取所述时间点集合中的首个时间点的状态数据,其中,所述时间点集合中各个时间点之间的间隔时长相同;
将获取的首个时间点的状态数据输入至该子模型中的Actor网络模型中,得到速率变化率,将获取的首个时间点的状态数据输入至该子模型中的Critic网络模型中,得到获取的首个时间点的状态数据对应的状态价值;
根据得到的速率变化率,利用预设算法计算首个时间点的发送速率,并将计算出的发送速率作为针对首个时间点的状态数据选择的动作,指示所述指定网络设备按照所述间隔时长执行所述动作;
再次获取所述指定网络设备在执行所述动作的时长达到所述间隔时长时产生的状态数据,将再次获取到的状态数据作为所述时间点集合中的下一个时间点的状态数据,并根据该网络环境在所述间隔时长内的网络吞吐量、网络时延和网络丢包率,计算所述动作对应的奖励值;
将下一个时间点的状态数据作为首个时间点的状态数据,返回执行将获取的首个时间点的状态数据输入至该子模型中的Actor网络模型中的步骤,直到得到所述时间点集合中的最后一个时间点的下一个时间点的状态数据对应的状态价值,并将得到的状态价值作为针对最后一个时间点的状态数据选择的动作对应的动作价值,其中,最后一个时间点的下一个时间点为与最后一个时间点间隔所述间隔时长的时间点;
根据针对最后一个时间点的状态数据选择的动作对应的动作价值、和针对所述时间点集合中的每个时间点的状态数据选择的动作对应的奖励值,计算针对所述时间点集合中的每个时间点的状态数据选择的动作对应的动作价值;
针对所述时间点集合中的每个时间点,根据预设的策略函数、所述策略函数的熵项、针对该时间点的状态数据选择的动作对应的动作价值和该时间点的状态数据对应的状态价值,计算该子模型中的Actor网络模型在该时间点的梯度,以及根据针对该时间点的状态数据选择的动作对应的动作价值和该时间点的状态数据对应的状态价值,计算该子模型中的Critic网络网络模型在该时间点的梯度;
将该子模型中的Actor网络模型在所有时间点的梯度进行累加,得到该子模型中Actor网络模型的梯度数据;以及将该子模型中的Critic网络模型在所有时间点的梯度进行累加,得到该子模型中Critic网络模型的梯度数据。


4.根据权利要求3所述的方法,其特征在于,通过以下方式计算所述时间点集合中的每个时间点的发送速率:
通过以下公式一计算所述时间点集合中的每个时间点的发送速率:
公式一:
其中,α为用于抑制震荡的比例因子;
at为第t个时间点的发送速率;
at-1为第t-1个时间点的发送速率;
在t=1时,at-1为初始发送速率。


5.根据权利要求3所述的方法,其特征在于,通过以下方式计算针对所述时间点集合中的每个时间点的状态数据选择的动作对应的奖励值:
通过以下公式二计算针对所述时间点集合中的每个时间点的状态数据选择的动作对应的奖励值:
公式二:rt=d*throughput-e*latency-f*loss
其中,rt为针对第t个时间点的状态数据选择的动作对应的奖励值;
d、e和f为已知常量;
throughput为该网络环境在所述间隔时长内的网络吞吐量;
latency为该网络环境在所述间隔时长内的网络时延;
loss为该网络环境在所述间隔时长内的网络丢包率;
通过以下方式计算针对所述时间点集合中的每个时间点的状态数据选择的动作对应的动作价值:
针对所述时间点集合中的时间点,按照从后往前的顺序,依次通过以下公式三计算针对所述时间点集合中的每个时间点的状态数据选择的动作对应的动作价值:
公式三:Q(s,t)=rt+γQ(s,t+1)
其中,Q(s,t)为针对第t个时间点的状态数据s选择的动作对应的动作价值,γ为衰减因子;
rt为针对第t个时间点的状态数据s选择的动作对应的奖励值;
Q(s,t+1)为针对第t+1个时间点的状态数据s选择的动作对应的动作价值。


6.根据权利要求5所述的方法,其特征在于,通过以下方式计算该子模型中的Actor网络模型在所述时间点集合中的每个时间点的梯度:
通过以下公式四计算该子模型中的Actor网络模型在所述时间点集合中的每个时间点的梯度:
公式四:
其中,dθ′为该子模型中使用的模型参数为θ′和ω′的Actor网络模型在第t个时间点的梯度;
α为步长参数,c为熵系数;
πθ′(st,at)为策略函数;
Q(s,t)为针对第t个时间点的状态数据s选择的动作对应的动作价值;
V(st,ω′)为第t个时间点的状态数据s对应的状态价值;

为所述策略函数的熵项;
通过以下方式计算该子模型中的Critic网络模型在所述时间点集合中的每个时间点的梯度:
通过以下公式五计算该子模型中的Critic网络模型在所述时间点集合中的每个时间点的梯度:
公式五:
其中,β为步长参数;
公式五中的Q(s,t)的含义与公式四中的Q(s,t)的含义相同;
公式五中的V(st,ω′)的含义与公式四中的V(st,ω′)的含义相同。


7.根据权利要求1所述的方法,其特征在于,基于所有子模型中的Actor网络模型的梯度数据,更新该轮次中目标强化学习模型中的Actor网络模型的模型参数,具体包括:
对所有子模型中的Actor网络模型的梯度数据进行累加,根据累加后的梯度数据,更新该轮次中目标强化学习模型中的Actor网络模型的模型参数;
基于所有子模型中的Critic网络模型的梯度数据,更新该轮次中目标强化学习模型中的Critic网络模型的模型参数,具体包括:
对所有子模型中的Critic网络模型的梯度数据进行累加,根据累加后的梯度数据,更新该轮次中目标强化学习模型中的Critic网络模型的模型参数。


8.一种拥塞控制装置,其特征在于...

【专利技术属性】
技术研发人员:程诚
申请(专利权)人:新华三技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1