一种基于Q学习的无线网络视频传输自适应控制方法技术

技术编号:18663074 阅读:26 留言:0更新日期:2018-08-11 16:38
本发明专利技术公开了一种基于Q学习的无线网络视频传输自适应控制方法,针对目前无线视频传输系统不能自适应调节传输速率提升用于体验的问题,该方法联合考虑了接收端缓冲区长度、网络状况以及用户服务质量体验(体验质量QoE),建立了基于马尔科夫决策的视频传输控制模型,形成一个体验质量QoE驱动的视频传输闭合回路反馈控制系统,采用Q学习算法在该模型的求解中得到用户体验最优的发送速率策略。

An adaptive control method for wireless network video transmission based on Q learning

The invention discloses an adaptive control method for wireless video transmission based on Q-learning. In view of the problem that the current wireless video transmission system can not adjust the transmission rate adaptively to enhance the experience, the method considers the length of the receiver buffer, the network condition and the user's quality of service experience (QoE) jointly. A video transmission control model based on Markov decision is established, and a closed loop feedback control system driven by experiential quality QoE is formed. Q learning algorithm is used to solve the model to obtain the optimal transmission rate strategy.

【技术实现步骤摘要】
一种基于Q学习的无线网络视频传输自适应控制方法
本专利技术涉及一种基于Q学习的无线网络视频传输自适应控制方法,属于无线网络流媒体传输

技术介绍
面向未来网络社会中巨幅增长的无线连接需求、增强型移动宽带接入服务需求、新兴通信模式的甚高可靠性及服务保证需求,5G定义并将发展出相应的移动通信技术。对于未来的第五代移动通信无线接入网络,现在已经逐渐明晰的是,其将是一个非常灵活的、异构接入系统,并将融入可用于面向具有不同特性及需求的大量应用配置同时无线连接的大量技术演进成果。为了满足对于上述高需求的支撑需求,未来第五代移动通信系统将需要有针对性地接入具有不同特性的无线频谱资源。全球移动通信行业对未来的第五代移动通信系统展望了很多种的应用/业务形式。其中既包括对于现有一些第四代移动通信系统应用场景的增强,还更多地包括了一些新兴的应用,比如:4K超高清晰度视频、8K超高清晰度视频、VR(VirtualReality,虚拟现实)、AR(AugmentedReality,增强现实)、移动游戏、IoT(物联网)、可穿戴设备应用、紧急任务应用(面向垂直行业与商业领域)。ITU-R(国际电信联盟无线电通信局)确定了5G的三大主要应用场景(1)增强型移动宽带;(2)超高可靠与低延迟的通信;(3)大规模机器类通信。
技术实现思路
为解决现有技术的不足,本专利技术的目的在于提供一种基于Q学习的无线网络视频传输自适应控制方法,结合目前无线业务用户需求的增长也给移动通信无线接入网络的扩容升级带来压力,需通过采取接入更多可用频谱资源的方式或采用先进的频谱共享接入机制来缓解无线网络拥塞的现状,对于自适应的调节视频的发送速率并提高用户的体验具有重要的意义。为了实现上述目标,本专利技术采用如下的技术方案:一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,包括如下步骤:步骤1)根据视频传输的具体场景建立基于马尔科夫决策的视频传输控制模型,将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中,建立MDP模型;步骤2)使用Q学习算法对模型进行求解,依靠网络控制器实时的搜集网络参数,通过matlab拟合确定各个网络参数对于服务质量QoS的影响因子得到服务质量QoS的归一化值表达式后构造用户体验满意度体验质量QoE的预测公式,构建出系统状态参数;构建Q值表并依据Q值迭代公式和回报函数对Q值表进行更新,直至得到最优的发送策略。前述的一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,所述步骤2)的具体内容为:21)初始化数据,分别设定学习速率初始值α0,折扣因子γ,探索概率初始值ε0,初始的视频发送速率;22)获取当前的状态,当视频数据到达时,通过适配器搜集网络时延、丢包、时延抖动以及缓存区长度信息,并计算得到动作前的体验质量QoE值,得到系状态(i,j);23)获得Q值:计算当前状态下所有可能发生的动作a1,a2,...,an所对应的Q值Q(s,a1),Q(s,a2),…,Q(s,an),得到当前网络状态下对应不同发送速率的Q值。24)动作选择:以Boltzmann搜索算法中定义的概率来选择发送速率模式的选取,本次决策得到的体验质量QoE值和上次决策的体验质量QoE值计算可得回报值。前述的一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,所述步骤1)中采用马尔科夫决策过程模型应用到视频传输的速率调解时需要将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中,整个映射过程如下:a)决策时刻:在每一帧开始时获得当前时刻系统的状态,每一帧的长度为Tf;所述系统的状态用两个参数进行描述,包括用服务质量QoS所衡量的用户体验质量和接收端缓冲区的队列长度;在获得系统的状态信息后,做出决策动作,选择发送速率模式,即选择在一帧时间内发送的数据包的个数;b)获得状态空间:用服务质量QoS所衡量的用户体验质量可由下式得到:Qa是一个不同网络类型反映不同QoE值的常量,A表示视频的分辨率等级,常量R反应视频帧结构中GOP(GroupofPicture)的长度,体验质量QoE的取值在[0,5]范围内,根据需求把体验质量QoE平均划分为m个区间,则每个区间的长度为用户体验质量QoE有m个状态;假设队列长度为n,可知队列长度有n+1个状态,包含队列长度为零的情况;所述队列长度指当时队列中包含的数据包数目,与接收端缓冲区的数据包进入速率和播放速率有关;所述缓冲区的数据包进入速率为发送端速率和丢包率的差值;系统共有m(n+1)个状态,得到系统的状态空间S={(i,j)|i=0,1,2,…,m-1;j=0,1,2,…,n};c)动作空间:某时刻动作a定义为系统状态为(i,j)时对于发送速率的调整,选择一个与网络状态相匹配的发送速率;假设有X种可供选择的发送速率模式,每一个发送速率是指在一个时间间隔内所发送的数据包的个数,动作空间可以表示为a={1,2,…,X},该集合是一个有限行动集,存在一个最优策略;d)效用函数:将回报函数r作为效用函数,MDP模型的效用函数为ρ(st,st+1,at)=r(τ(t),b(t),p(t)),τ(t),b(t),p(t)是状态空间的参数,分别为时延长度、接收端缓冲区的长度和丢包率,根据实际情况以及经验值进行调整;设计回报函数为每次动作后的体验质量QoE增量r(k)=ΔQoE(k)=QoE(i′,j′)-QoE(i,j),其中表示在动作a(i,j)作用下系统由状态(i,j)转移到了状态(i′,j′),k表示此次动作是第k次决策,QoE(i,j)为状态(i,j)时的用户满意度,QoE(i′,j′)为状态(i′,j′)时的用户满意度;基于a)-d)形成报酬函数:每个决策时刻感知探测得到系统状态S后需选择动作a,即每次探测得到系统状态后都要选择一个对应的速率模式;动作前后的用户体验的体验有两种情况:选择动作a后,用体验体验质量QoE得到改善,即ΔQoE>0;选择动作a后,用体验体验质量QoE变差,即ΔQoE<0,定义报酬函数为:其中,K表示整个视频传输过程所需探测的总次数。前述的一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,所述步骤2)中使用Q学习算法对模型进行求解时,Q学习算法的各个要素与视频传输系统的各个参数的对应关系为:状态S对应于MDP模型中状态空间,动作a对应于MDP模型的动作空间,强化信号对应于MDP模型的效用函数,环境对应用于传输视频的无线网络环境;Q学习通过以下迭代规则来获得其中,α是Q学习的学习速率,γ∈[0,1)是折扣因子,Qt(s,a)是在s状态时采取动作a所对应的Q值,Qt(s′,a′)是下一步的状态s′和下一步动作a′对应的Q值;学习的最终目标是最大化期望值的长期累积回报,即使得报酬函数的值最大,使得Q值与长期回报函数相匹配,形成最优策略π*(s);所述最优策略π*(s)为使得报酬函数Reward值最大的一系列发送速率值。本专利技术所达到的有益效果:本专利技术联合考虑了接收端缓冲区长度和用户体验体验质量QoE两个因素,建立了基于马尔科夫决策的视频传输控制模型,形成一个体验质量QoE驱动的的视频传输闭合回路反馈控制系统,可以根据用户体验自适应的调整视频的发送速率;对于马尔科夫决策模型的求解使本文档来自技高网...

【技术保护点】
1.一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,包括如下步骤:步骤1)根据视频传输的具体场景建立基于马尔科夫决策的视频传输控制模型,将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中,建立MDP模型;步骤2)使用Q学习算法对模型进行求解,依靠网络控制器实时的搜集网络参数,通过matlab拟合确定各个网络参数对于服务质量QoS的影响因子得到服务质量QoS的归一化值表达式后构造用户体验满意度体验质量QoE的预测公式,构建出系统状态参数;构建Q值表并依据Q值迭代公式和回报函数对Q值表进行更新,直至得到最优的发送策略。

【技术特征摘要】
1.一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,包括如下步骤:步骤1)根据视频传输的具体场景建立基于马尔科夫决策的视频传输控制模型,将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中,建立MDP模型;步骤2)使用Q学习算法对模型进行求解,依靠网络控制器实时的搜集网络参数,通过matlab拟合确定各个网络参数对于服务质量QoS的影响因子得到服务质量QoS的归一化值表达式后构造用户体验满意度体验质量QoE的预测公式,构建出系统状态参数;构建Q值表并依据Q值迭代公式和回报函数对Q值表进行更新,直至得到最优的发送策略。2.根据权利要求1所述的一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,所述步骤2)的具体内容为:21)初始化数据,分别设定学习速率初始值α0,折扣因子γ,探索概率初始值ε0,初始的视频发送速率;22)获取当前的状态,当视频数据到达时,通过适配器搜集网络时延、丢包、时延抖动以及缓存区长度信息,并计算得到动作前的体验质量QoE值,得到系状态(i,j);23)获得Q值:计算当前状态下所有可能发生的动作a1,a2,...,an所对应的Q值Q(s,a1),Q(s,a2),…,Q(s,an),得到当前网络状态下对应不同发送速率的Q值。24)动作选择:以Boltzmann搜索算法中定义的概率来选择发送速率模式的选取,本次决策得到的体验质量QoE值和上次决策的体验质量QoE值计算可得回报值。3.根据权利要求1所述的一种基于Q学习的无线网络视频传输自适应控制方法,其特征是,所述步骤1)中采用马尔科夫决策过程模型应用到视频传输的速率调解时需要将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中,整个映射过程如下:a)决策时刻:在每一帧开始时获得当前时刻系统的状态,每一帧的长度为Tf;所述系统的状态用两个参数进行描述,包括用服务质量QoS所衡量的用户体验质量和接收端缓冲区的队列长度;在获得系统的状态信息后,做出决策动作,选择发送速率模式,即选择在一帧时间内发送的数据包的个数;b)获得状态空间:用服务质量QoS所衡量的用户体验质量可由下式得到:Qa是一个不同网络类型反映不同QoE值的常量,A表示视频的分辨率等级,常量R反应视频帧结构中GOP的长度,体验质量QoE的取值在[0,5]范围内,根据需求把体验质量QoE平均划分为m个区间,则每个区间的长度为用户体验质量QoE有m个状态;假设队列长度为n,可知队列长度有n+1个状态,包含队列长度为零的情况;所述队列长度指当时队列中包含的数据包...

【专利技术属性】
技术研发人员:朱晓荣董天才邵喆丹
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1