【技术实现步骤摘要】
调度方法、调度系统和调度装置
[0001]本申请涉及通信领域,并且具体地,涉及一种调度方法、调度系统和调度装置。
技术介绍
[0002]在蜂窝网络中,介质访问控制(media access control,MAC)层调度主要解决时频资源的分配、调制与编码策略(modulation and coding scheme,MCS)选择、用户配对、预编码等问题,通过调度来实现系统吞吐和公平性的折中。
[0003]目前使用深度强化学习的基站(base station,BS)调度器可更好地实现系统吞吐和公平性的折中。在进行深度强化学习的过程中,调度器在接收到上次调度决策的收益反馈之后,要根据该收益反馈确定本次的调度决策,然后将本次的调度决策发送给BS进行下行控制信息(downlink control information,DCI)编码之后由BS在约定的时间发送给终端设备,在实际中,可能由于调度器无法及时获取到上次调度决策的收益,导致BS无法在系统约定时间发送本次的调度决策的DCI编码,从而造成空口反馈滞后,导致调度器无法在时序上有效地进行深度强化训练。
技术实现思路
[0004]本申请提供一种调度方法、调度系统和调度装置,有效解决了调度器无法及时获取上一次调度决策收益时,调度流程与空口时序卡滞冲突的问题。
[0005]第一方面,提供了一种调度方法,应用于由至少一个调度器组成的调度系统中,调度系统包括第一调度器,方法包括:第一调度器在第i个时间单元获取第一收益反馈,其中,i≥1且i为整数;第一调度 ...
【技术保护点】
【技术特征摘要】
1.一种调度方法,其特征在于,应用于由至少一个调度器组成的调度系统中,所述调度系统包括第一调度器,所述方法包括:所述第一调度器在第i个时间单元获取第一收益反馈,其中,i≥1且i为整数;所述第一调度器根据所述第一收益反馈确定第一调度决策,其中,所述第一收益反馈是终端设备根据第二调度决策确定的,所述第二调度决策为所述第一调度器在所述第一调度决策之前确定的上一次的调度决策;所述第一调度器在第i+N个时间单元发送所述第一调度决策,其中,N>1且N为整数。2.根据权利要求1所述的方法,其特征在于,所述调度系统还包括一个或多个第二调度器,所述方法还包括:所述第二调度器在第i+j个时间单元获取第二收益反馈,其中,1≤j≤N-1且j为整数;所述第二调度器根据所述第二收益反馈确定第三调度决策,其中,所述第二收益反馈是所述终端设备根据第四调度决策确定的,所述第四调度决策为所述第二调度器在所述第三调度决策之前确定的上一次的调度决策,所述第一调度器确定的调度决策和所述第二调度器确定的调度决策分别为所述第一调度器和所述第二调度器对同一任务的调度决策;所述第二调度器在第i+j+M个时间单元发送所述第二调度决策,其中,M>1且M为整数。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:所述第一调度器向所述第二调度器发送第一信息,所述第一信息包括所述第一调度决策或第三收益反馈,所述第三收益反馈是所述终端设备根据所述第一调度决策确定的;所述第二调度器接收所述第一信息并根据所述第一信息调整之后对所述任务的调度决策。4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:所述第二调度器向所述第一调度器发送第二信息,所述第二信息包括所述第二调度决策或第四收益反馈,所述第四收益反馈是所述终端设备根据所述第二调度决策确定的;所述第一调度器接收所述第二信息并根据所述第二信息调整之后对所述任务的调度决策。5.一种调度方法,其特征在于,包括:终端设备在第i个时间单元发送第一收益反馈,其中,i≥1且i为整数;所述终端设备在第i+N个时间单元接收第一调度器根据所述第一收益反馈确定的第一调度决策,其中,所述第一收益反馈是所述终端设备根据第二调度决策确定的,所述第二调度决策为所述第一调度器在所述第一调度决策之前确定的上一次的调度决策,N>1且N为整数。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:所述终端设备在第i+j个时间单元发送第二收益反馈,其中,1≤j≤N-1且j为整数;所述终端设备在第i+j+M个时间单元接收第二调度器根据所述第二收益反馈确定的第三调度决策,其中,M>1且M为整数,所述第二收益反馈是所述终端设备根据第四调度决策确定的,所述第四调度决策为所述第二调度器在所述第三调度决策之前确定的上一次的调度决策,所述第一调度器确定的调度决策和所述第二调度器确定的调度决策分别为所述第一
调度器和所述第二调度器对同一任务的调度决策。7.根据权利要求5或6所述的方法,其特征在于,N等于2。8.根据权利要求5至7中任一项所述的方法,其特征在于,所述N的值是通信系统或通信协议规定的。9.一种调度系统,其特征在于,所述调度系统包括:第一调度器,用于在第i个时间单元获取第一收益反馈,其中,i≥1且i为整数;所述第一调度器,还用于根据所述第一收益反馈确定第一调度决策,其中,所述第一收益反馈是终端设备根据第二调度决策确定的,所述第二调度决策为所述第一调度器在所述第一调度决策之前确定的上一次的调度决策;所述第一调度器,还用于在第i+N个时间单元发送所述第一调度决策,其中,N>1且N为整数。10.根据权利要求9所述的调度系统,其特征在于,所述调度系统还包括一个或多个第二调度器,所述第二调度器,用于在第i+j个时间单元获取第二收益反馈,其中,1≤j≤N-1且...
【专利技术属性】
技术研发人员:韩育超,金爱祥,张倬钒,王坚,李榕,杜颖钢,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。