【技术实现步骤摘要】
模型训练方法、确定视频流调度策略的方法及电子设备
[0001]本申请涉及无线通信
,尤其涉及一种模型训练方法、确定视频流调度策略的方法及电子设备。
技术介绍
[0002]近年来,大量的测量研究为改善蜂窝网络中的视频流服务的体验质量(QoE,Quality of Experience)提供了新的设计空间。一方面,可以利用视频流业务模式的周期性和可变性来基于历史信息设计与时间相关的资源分配策略;另一方面,网络运营商可以针对短视图和长视图设置不同的优先级,从而增强视频流服务的QoE,且不会引起复杂的算法设计或显著的成本。
[0003]为了编排面向QoE的调度策略,需要理论模型来捕获视频流服务的缓冲区变空(或称缓冲区饥饿)的概率。假设用户行为的地理同质性,将观察结果映射到位于同一无线小区中的用户,这有助于从微观角度检测每个视频流的QoE指标;其中,QoE指标包括缓冲区变空的概率;根据观看时间的超指数分布将视频流区分为短流或长流;基于QoE指标的值,采用加权比例公平算法和加权循环算法来调度基站(BS,Base Stati ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:将至少一个状态向量序列输入至缓冲区估计模型,得到每个状态向量序列对应的第一缓冲区变空的第一概率和第一次数;其中,所述状态向量序列表征基站在不同时刻同时传输多个视频流的数据包时对应的状态向量,每个状态向量表征多个网络状态参数,所述第一缓冲区表征视频流服务器的视频缓冲区;基于所述至少一个状态向量序列中每个状态向量序列对应的标定概率、标定次数、第一概率和第一次数,计算出所述缓冲区估计模型的损失值;根据计算出的损失值更新所述缓冲区估计模型的权重参数。2.根据权利要求1所述的方法,其特征在于,所述缓冲区估计模型包括循环神经网络、双向门控循环神经网络和多任务预测网络;在所述将至少一个状态向量序列输入至缓冲区估计模型,得到每个状态向量序列对应的第一缓冲区变空的第一概率和第一次数时,所述方法包括:将状态向量序列输入至所述循环神经网络,得到状态向量序列中每个状态向量对应的实数,以及对状态向量序列中每个状态向量对应的实数施加注意力权重,得到第一特征向量;其中,所述实数是对状态向量进行特征压缩得到;所述实数表征状态向量的全局特征;将所述第一特征向量输入至所述双向门控循环神经网络,得到第二特征向量;所述第二特征向量表征状态向量序列中状态向量之间的相关性;将所述第二特征向量输入至所述多任务预测网络,得到状态向量序列对应的第一缓冲区变空的第一概率和第一次数。3.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个状态向量序列中每个状态向量序列对应的标定概率、标定次数、第一概率和第一次数,计算出所述缓冲区估计模型的损失值,包括:基于所述至少一个状态向量序列中每个状态向量序列对应标定次数和第一次数,计算出第一损失值;基于所述至少一个状态向量序列中每个状态向量序列对应的标定概率和第一概率,计算第二损失值;基于第一系数与所述第一损失值之间的乘积、第二系数与所述第二损失值之间的乘积,计算出所述缓冲区估计模型的损失值。4.根据权利要求3所述的方法,其特征在于,所述第一损失值表征均方差;所述第二损失值表征交叉熵。5.一种确定视频流调度策略的方法,其特征在于,包括:将第一状态向量序列输入至第一模型,得到所述第一状态向量序列对应的第二缓冲区变空的第二概率和第二次数;所述第一状态向量序列表征基站在接收到多个视频流对应的数据包队列中的数据包时对应的状态向量,每个状态向量表征多个网络状态参数,所述第二缓冲区表征视频流服务器的视频缓冲区;基于信道流量、所述数据包队列的数据包总数、所述第二概率、所述第二次数和被标记的视频流处于不同的流状态对应的历史状态向量,构建奖励函数;将多个历史状态向量和对应的调度策略输入至强化学习模型,利用所述奖励函数计算出执行每个调度策略对应的总奖励;
基于第三概率和第一价值,计算出价值梯度;其中,所述第三概率表征针对最大的总奖励对应的目标历史状态向量,选择对应的目标调度策略的概率;所述第一价值表征执行所述目标调度策略的价值;基于所述价值梯度更新所述强化学习模型的权重参数;在所述强化学习模型达到设定收敛条件的情况下,将所述第一状态向量序列输入至更新权重参数后的强化学习模型,得到所述第一状态向量序列中每个状态向量对应的总奖励最大的调度策略;其中,所...
【专利技术属性】
技术研发人员:王水介,邱裕鹤,苏郁,程倩倩,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。