The invention discloses an adaptive control method for wireless video transmission based on Q-learning. In view of the problem that the current wireless video transmission system can not adjust the transmission rate adaptively to enhance the experience, the method considers the length of the receiver buffer, the network condition and the user's quality of service experience (QoE) jointly. A video transmission control model based on Markov decision is established, and a closed loop feedback control system driven by experiential quality QoE is formed. Q learning algorithm is used to solve the model to obtain the optimal transmission rate strategy.
【技术实现步骤摘要】
一种基于Q学习的无线网络视频传输自适应控制方法
本专利技术涉及一种基于Q学习的无线网络视频传输自适应控制方法,属于无线网络流媒体传输
技术介绍
面向未来网络社会中巨幅增长的无线连接需求、增强型移动宽带接入服务需求、新兴通信模式的甚高可靠性及服务保证需求,5G定义并将发展出相应的移动通信技术。对于未来的第五代移动通信无线接入网络,现在已经逐渐明晰的是,其将是一个非常灵活的、异构接入系统,并将融入可用于面向具有不同特性及需求的大量应用配置同时无线连接的大量技术演进成果。为了满足对于上述高需求的支撑需求,未来第五代移动通信系统将需要有针对性地接入具有不同特性的无线频谱资源。全球移动通信行业对未来的第五代移动通信系统展望了很多种的应用/业务形式。其中既包括对于现有一些第四代移动通信系统应用场景的增强,还更多地包括了一些新兴的应用,比如:4K超高清晰度视频、8K超高清晰度视频、VR(VirtualReality,虚拟现实)、AR(AugmentedReality,增强现实)、移动游戏、IoT(物联网)、可穿戴设备应用、紧急任务应用(面向垂直行业与商业领域)。ITU-R(国际电信联盟无线电通信局)确定了5G的三大主要应用场景(1)增强型移动宽带;(2)超高可靠与低延迟的通信;(3)大规模机器类通信。
技术实现思路
为解决现有技术的不足,本专利技术的目的在于提供一种基于Q学习的无线网络视频传输自适应控制方法,结合目前无线业务用户需求的增长也给移动通信无线接入网络的扩容升级带来压力,需通过采取接入更多可用频谱资源的方式或采用先进的频谱共享接入机制来缓解无线网络拥塞的 ...
【技术保护点】
1.一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,包括如下步骤:步骤1)根据视频传输的具体场景建立基于马尔科夫决策的视频传输控制模型,将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中,建立MDP模型;步骤2)使用Q学习算法对模型进行求解,依靠网络控制器实时的搜集网络参数,通过matlab拟合确定各个网络参数对于服务质量QoS的影响因子得到服务质量QoS的归一化值表达式后构造用户体验满意度体验质量QoE的预测公式,构建出系统状态参数;构建Q值表并依据Q值迭代公式和回报函数对Q值表进行更新,直至得到最优的发送策略。
【技术特征摘要】
1.一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,包括如下步骤:步骤1)根据视频传输的具体场景建立基于马尔科夫决策的视频传输控制模型,将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中,建立MDP模型;步骤2)使用Q学习算法对模型进行求解,依靠网络控制器实时的搜集网络参数,通过matlab拟合确定各个网络参数对于服务质量QoS的影响因子得到服务质量QoS的归一化值表达式后构造用户体验满意度体验质量QoE的预测公式,构建出系统状态参数;构建Q值表并依据Q值迭代公式和回报函数对Q值表进行更新,直至得到最优的发送策略。2.根据权利要求1所述的一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,所述步骤2)的具体内容为:21)初始化数据,分别设定学习速率初始值α0,折扣因子γ,探索概率初始值ε0,初始的视频发送速率;22)获取当前的状态,当视频数据到达时,通过适配器搜集网络时延、丢包、时延抖动以及缓存区长度信息,并计算得到动作前的体验质量QoE值,得到系状态(i,j);23)获得Q值:计算当前状态下所有可能发生的动作a1,a2,...,an所对应的Q值Q(s,a1),Q(s,a2),…,Q(s,an),得到当前网络状态下对应不同发送速率的Q值。24)动作选择:以Boltzmann搜索算法中定义的概率来选择发送速率模式的选取,本次决策得到的体验质量QoE值和上次决策的体验质量QoE值计算可得回报值。3.根据权利要求1所述的一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,所述步骤1)中采用马尔科夫决策过程模型应用到视频传输的速率调解时需要将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中,整个映射过程如下:a)决策时刻:在每一帧开始时获得当前时刻系统的状态,每一帧的长度为Tf;所述系统的状态用两个参数进行描述,包括用服务质量QoS所衡量的用户体验质量和接收端缓冲区的队列长度;在获得系统的状态信息后,做出决策动作,选择发送速率模式,即选择在一帧时间内发送的数据包的个数;b)获得状态空间:用服务质量QoS所衡量的用户体验质量可由下式得到:Qa是一个不同网络类型反映不同QoE值的常量,A表示视频的分辨率等级,常量R反应视频帧结构中GOP的长度,体验质量QoE的取值在[0,5]范围内,根据需求把体验质量QoE平均划分为m个区间,则每个区间的长度为用户体验质量QoE有m个状态;假设队列长度为n,可知队列长度有n+1个状态,包含队列长度为零的情况;所述队列长度指当时队列中包含的数据包...
【专利技术属性】
技术研发人员:朱晓荣,董天才,邵喆丹,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。