当前位置: 首页 > 专利查询>西北大学专利>正文

一种基于DQN的HTTP自适应流控制能耗优化方法技术

技术编号:21205236 阅读:22 留言:0更新日期:2019-05-25 02:51
一种基于DQN的HTTP自适应流控制能耗优化方法,考虑了不同的网络状况,缓存区域内的加载状况,以及客户端设备电量剩余情况,并基于此环境下模拟了使用状况,客户端与服务器的交互过程中,流媒体通过DQN学习系统对多媒体文件进行质量不同的切换,高频低频内核的切换从而达到能耗优化的目的。

An Energy Consumption Optimization Method for HTTP Adaptive Flow Control Based on DQN

An energy consumption optimization method of HTTP adaptive flow control based on DQN considers different network conditions, loading conditions in buffer area, and power surplus of client devices. Based on this environment, the usage situation is simulated. During the interaction between client and server, streaming media handover multimedia files with different quality through DQN learning system in high frequency and low frequency. The switch of the core achieves the goal of energy consumption optimization.

【技术实现步骤摘要】
一种基于DQN的HTTP自适应流控制能耗优化方法
本专利技术属于计算机网络通信
,具体涉及一种基于DQN的HTTP自适应流控制能耗优化方法。
技术介绍
近年来,多媒体领域发展速度飞快,而多媒体内容的传输也越来越被人们所重视,HTTP视频协议是互联网普及之后,一种主流的在线视频观看的方式,HTTP协议传输多媒体文件主要分为两个阶段,第一个阶段是渐进式下载阶段,通俗地讲就是支持用户边下载边播放,而不需要将整个文件下载完毕之后再播放。但这不是真正的流式传输,与普通文件的下载没有区别,而第二阶段HTTP流化技术,主要是在服务器端将媒体文件分成一个个小的切片,服务接受到请求再通过HTTP响应发送该媒体文件的切片,而在服务器与客户端的交互过程中,客户端根据网络的状态实时调整切片码率,在网络状态好的情况下使用高码率,网络状态繁忙时使用低码率并自动切换,主要实现的方法是服务器段在提供的每个列表文件中都有注明码率,客户端的播放器会根据播放的进度和下载的速度进行自动调整,在保证播放的连续性和流畅性的基础上,尽可能提升用户体验,而我们要做的是在保证这一切的前提下对客户端设备能耗进行深一层次的优化,在客户端播放在线视频时,网络状态,缓存状态,手机剩余电量是人们往往忽略的部分,HTTP自适应流也存在着码率选择灵活性较低,无法很好地应对复杂的网络状况,频繁切换视频流的码率不但会给观看者造成不适的体验,也忽视了切换带来的能耗开销,这里我们提出一种基于增强学习与神经网络的deepqlearning的能耗优化模型。Q-learning是强化学习的一种经典方法,强化学习的主要核心思想是智能体通过与环境的不断交互,智能体通过采取合适的动作得到回报值进入下一状态,而Q-learning的核心Q-table,行与列分别表示了state和action,而Q-table中的Q值正是衡量状态s采取动作a的好坏,而神经网络在这里是如何工作的,我们可以把它当作一个黑盒子,输入的是一个状态值,输出的是这个状态的价值,而训练数据来自于整个系统运作的过程中产生的一些数据,通过这些数据在计算回报的过程中会有所修正,我们使用修正过的值作为神经网络的输入,二次训练,最终达到收敛的效果,选出最优策略。
技术实现思路
为了克服上述现有技术的不足,本专利技术的目的是提供一种基于DQN的HTTP自适应流控制能耗优化方法,使用一种结合了BP(blackpropagation)神经网络的q-learning增强学习来与环境进行交互,在用户在线观看视频的过程中,环境是不断在改变的,网络的变化,电量的消耗,该系统对在多变的环境下视频播放器中的视频质量进行动态匹配切换与对不同cpu内核进行动态调度,得到最合适的媒体质量级别与最合适的cpu核心。最终达到降低能耗的功能。为了实现上述目的,本专利技术采用的技术方案是:一种基于DQN的HTTP自适应流控制能耗优化方法,包括以下步骤:1)环境采集建模:使用Dummynet模拟日常生活中所用到的网络,在3g,4g,Wifi网络环境下使用客户端,并对当前环境信息进行采集,分别有客户端数据缓存状态B,即当前缓存区域内的片段长度,网络状态N,电池电量E三个状态组成的集合,S=(B,N,E),将时间划分为多个时间点,一一对应,并保存数据;2)客户端动作集与回报函数的定义:根据步骤1)中所采集的环境数据作为状态集建立Q-learning的状态空间,建立模型的动作集,系统通过对网络状态,缓存状态以及电池电量来选择合适的动作进入下一个状态,建立模型的动作集主要有两个动作状态构成,切换视频质量,高频核心低频核心的切换;视频切片质量的切换,将能耗能级与切换开销之和定义为回报函数,回报函数构成有以下两点,第一是能耗等级值,由能耗等级,不同的网络等级,不同的视频质量,不同的cpu核心使用形成一个映射关系,这里的能耗等级值由映射表中选取,第二个值是视频切换以及大小核切换所带来的开销,这个值是一个负反馈,所以回报函数表达式为:R=C1Renergy+C2Rswitch,这里与C1C2分别是两个回报值的权值,根据用户偏好的侧重来设定具体的值,权重值可为1;3)算法实现:运用DeepQLearning算法,是结合了bp神经网络的Q-learning算法,通过与环境的不断交互,选取最佳动作,神经网络的主要作用是将高维度的状态转换为低维输出,神经网络通过将环境状态中的变为低纬度状态值,是环境状态s进行输入,输出动作所对应的Q值,以一个向量的形式,使用了ε-greedy贪婪算法,在每一个状态下,以小的概率ε随机选择动作action,以1-ε根据bp神经网络选择最优的action,之后将随机选择的动作和根据神经网络选择的action加入我们神经网络中的replay_buffer经验池中进行二次训练,做出动作,到达下一状态,神经网络训练优化输入状态,输出值运用最优解策略,输出最优解;4)在实际问题中,设备通过系统获取环境状态值,通过DQN选择最匹配的质量视频与最省电且不影响用户体验的内核。所述的系环境信息,定义的状态集S中含有网络等级,按照又高到底分为六个等级,但经过测量,1,2两级或3g情况下无法正常加载测试视频中质量最低的,手机电量剩余值,缓存片段长度,这里通过编写调用缓存信息的脚本,选择单位时间点的缓存状态,也就是片段长短。本专利技术中的系统通过与环境中不断改变的状态进行交互,对每个片段分配合理的流媒体质量以及合理的CPU内核,实验结果表明,本优化方法在不影响用户体验的情况下,可以有效降低移动流媒体对设备造成的能耗,加载部分能耗减少百分之二十一。附图说明图1为本专利技术系统流程图。图2为本专利技术DQN学习过程图。图3为本专利技术应用场景图。具体实施方式以下结合实施例对本专利技术进一步叙述,但本专利技术不局限与以下实施例。一种基于DQN的HTTP自适应流控制能耗优化方法,如图1、3所示,http自适应流的工作的主要工作形势是将流媒体文件分割成一个个个较小的片段来进行HTTP请求,传输等,所以我们首先客户端接收到的是流媒体文件的切片,系统采集网络环境与当前的电量情况,并对数据进行处理,具体的过程如下:定义状态集S,网络等级,按照又高到底分为六个等级,但经过测量,1,2两级或3g情况下无法正常加载测试视频中质量最低的,所以按回报值为0计算,手机电量剩余值,缓存片段长度,这里通过编写调用缓存信息的脚本,选择单位时间点的缓存状态,也就是片段长短。定义动作集合,这里我们使用的开发版OdroidXU3,主要Cortex-A15高频内核与Cortex—A7低频内核,这里的动作主要是根据环境的变化调整使用哪个核工作,哪个核睡眠,主要动作为任务选择A15与任务选择A7,流媒体质量分为无损,高清,低清,这里仅限于实验测试的视频集合。3)选择奖励函数与模型的构建,首先,对神经网络初始化,这里我们使用BP神经网络的主要作用是估算每个状态下动作的价值,并减少向量的维数,对Q值迭代公式中的学习率α与折扣因子γ,以及动作选择里的探索概率ε赋值。对每一个迭代的周期,会进行下面的过程如图2所示,初始化完成之后,系统的状态state进行输入,输出是当前动作所产生的价值,我们根据估算这个输出替代之前的输出,一步一步的优化寻找最优解,本文档来自技高网
...

【技术保护点】
1.一种基于DQN的HTTP自适应流控制能耗优化方法,其特征在于,包括以下步骤:1)环境采集建模:使用Dummynet模拟日常生活中所用到的网络,在3g,4g,Wifi网络环境下使用客户端,并对当前环境信息进行采集,分别有客户端数据缓存状态B,即当前缓存区域内的片段长度,网络状态N,电池电量E三个状态组成的集合,S=(B,N,E),将时间划分为多个时间点,一一对应,并保存数据;2)客户端动作集与回报函数的定义:根据步骤1)中所采集的环境数据作为状态集建立Q‑learning的状态空间,建立模型的动作集,系统通过对网络状态,缓存状态以及电池电量来选择合适的动作进入下一个状态,建立模型的动作集主要有两个动作状态构成,切换视频质量,高频核心低频核心的切换;视频切片质量的切换,将能耗能级与切换开销之和定义为回报函数,回报函数构成有以下两点,第一是能耗等级值,由能耗等级,不同的网络等级,不同的视频质量,不同的cpu核心使用形成一个映射关系,这里的能耗等级值由映射表中选取,第二个值是视频切换以及大小核切换所带来的开销,这个值是一个负反馈,所以回报函数表达式为:R=C1Re nergy+C2Rswitch,这里与C1C2分别是两个回报值的权值,根据用户偏好的侧重来设定具体的值,权重值可为1;3)算法实现:运用Deep Q Learning算法,是结合了bp神经网络的Q‑learning算法,通过与环境的不断交互,选取最佳动作,神经网络的主要作用是将高维度的状态转换为低维输出,神经网络通过将环境状态中的变为低纬度状态值,是环境状态s进行输入,输出动作所对应的Q值,以一个向量的形式,使用了ε‑greedy贪婪算法,在每一个状态下,以小的概率ε随机选择动作action,以1‑ε根据bp神经网络选择最优的action,之后将随机选择的动作和根据神经网络选择的action加入我们神经网络中的replay_buffer经验池中进行二次训练,做出动作,到达下一状态,神经网络训练优化输入状态,输出值运用最优解策略,输出最优解;4)在实际问题中,设备通过系统获取环境状态值,通过DQN选择最匹配的质量视频与最省电且不影响用户体验的内核。...

【技术特征摘要】
1.一种基于DQN的HTTP自适应流控制能耗优化方法,其特征在于,包括以下步骤:1)环境采集建模:使用Dummynet模拟日常生活中所用到的网络,在3g,4g,Wifi网络环境下使用客户端,并对当前环境信息进行采集,分别有客户端数据缓存状态B,即当前缓存区域内的片段长度,网络状态N,电池电量E三个状态组成的集合,S=(B,N,E),将时间划分为多个时间点,一一对应,并保存数据;2)客户端动作集与回报函数的定义:根据步骤1)中所采集的环境数据作为状态集建立Q-learning的状态空间,建立模型的动作集,系统通过对网络状态,缓存状态以及电池电量来选择合适的动作进入下一个状态,建立模型的动作集主要有两个动作状态构成,切换视频质量,高频核心低频核心的切换;视频切片质量的切换,将能耗能级与切换开销之和定义为回报函数,回报函数构成有以下两点,第一是能耗等级值,由能耗等级,不同的网络等级,不同的视频质量,不同的cpu核心使用形成一个映射关系,这里的能耗等级值由映射表中选取,第二个值是视频切换以及大小核切换所带来的开销,这个值是一个负反馈,所以回报函数表达式为:R=C1Renergy+C2Rswitch,这里与C1C2分别是两个回报值的权值,根据用户偏好的侧重来设定具体的值,权...

【专利技术属性】
技术研发人员:高岭赵子鑫袁璐刘艺秦晨光任杰王海郑杰
申请(专利权)人:西北大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1