当前位置: 首页 > 专利查询>西北大学专利>正文

一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法技术

技术编号:19705016 阅读:24 留言:0更新日期:2018-12-08 15:03
一种基于Q‑learning的移动端音乐播放器动态调节能耗优化方法,在不同的网络状态下进行在线听歌,检测测试手机电池功率,测试手机收集每个时间段网络信号强度,整理出用户的环境状态,建立Q‑learning模型,根据所采集到的环境状态建立Q‑learning状态空间,其次建立Q‑learning模型的动作集合,建立Q‑learning动作空间,仿真Q‑learning模型变化过程,寻找Q值最优动作;MATLAB仿真Q‑learning模型,运用最优解搜索策略,求解模型的最优解;设备获取到的环境状态的各个值,利用Q学习的搜索策略,根据Q值不断选择最佳动作,达到能耗优化。在Q‑learning学习过程中通过Q值的迭代找到最优策略,动态调整下载的音乐质量的高低,选择最佳质量的音频,在满足用户体验的情况下尽可能降低移动设备的能耗。

【技术实现步骤摘要】
一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法
本专利技术属于计算机网络通信
,具体涉及一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法。
技术介绍
随着移动互联网的快速发展,移动端各方面技术不断提升,服务的场景越来越丰富,移动的数据量越来越大。移动网络的高速发展与wifi的普及为人们带来了便利的同时也降低了通讯成本,丰富了日常生活。移动端应用多种多样,功能也越来越强大,处理器越来越快,能让手机现有功能体验更优,同时带来全新的功能,处理器的进步也为手机带来了如沉浸式VR体验、机器学习等新的功能。人们对于手机性能的追求是无止尽的,性能的攀升必将受到市场的反馈,进而导致开发者进一步对性能的压榨。伴随着性能的升级,移动端的设备的使用频率提升,人们开始频繁手机充电与依赖手机充电宝。在关注性能和便利性的同时手机能耗的问题也暴露出来。硬件方面,手机屏幕尺寸的增大,CPU运行频率增加都会更加消耗手机电量,软件方面,更加耗电的游戏,丰富的社交app都会进一步导致移动端电池的消耗。这么多年来,即便智能手机的电池越做越大、电池储电材料升级,各大厂商们在手机电池续航方面的优化也越来越好,手机的续航却无论如何也提不起来。“一天一充”,放在今天,基本没法做到。在我们的日常生活中,听音乐是再寻常不过的事了,随着wifi的普及和大面积覆盖,手机运营商的流量的升级,网速的提升,人们更青睐“云”音乐播放器,在线听歌,节省手机内存的同时也能提升用户体验,比如可以个性化推荐,收听音乐电台,在线音乐播放器也更适合听高质量音乐,不会因为音频质量太大占内存而苦恼。高质量音频提升用户体验的同时也造成了手机高能耗,运算能力等问题,人们听音乐时往往会会忽略手机网络状态,手机剩余电量。针对这种问题,我们从软件级别进行优化,提出了一种基于强化学习Q-learning的能耗优化的模型。在介绍Q-learning之前我们需要简单介绍一下强化学习,强化学习是一种重要的机器学习方法,是一种智能体从环境到行为的映射学习。在智能控制机器人,预测分析等方面有许多应用。如图2所示,Q-learning是一种无监督无模型的在线强化学习方法,在Q-learning算法中智能体无时无刻地与环境交互来计算出最佳的方案,根据一次次的迭代,智能体目的是根据当前状态就能寻找到最大化累计回报的动作。Q-learning中智能体与外界环境的交互可以看作是一个马尔科夫决策过程,其有一套统一的模型,一般用一个四元组(S,A,P,R)来表示,s为智能体所处的环境状态集合,A表示可以执行的动作集合,P表示状态转移概率矩阵,R表示回报,状态转移到状态执行了动作之后从外界获得的收益。在每一轮迭代中,智能体通过不断的试错,找到每个状态最佳的策略π*(s)A。其最大期望的长期回报的最大值为:Q学习的优点在于因为它是无模型强化学习,所以可以在R(s,a)与P(a)未知的情况下,通过Q值的迭代找到最优策略。其中将策略π下的每对状态和对应的动作与一个“Q”关联:Q的值经过一定迭代得到,其规则为:其中,为学习速率,范围是0到1,越大则说明算法收敛越快,随着不断的迭代,递减到0,Q将以概率1收敛到最优值。
技术实现思路
为了克服上述现有技术的不足,本专利技术的目的是提供一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法,在用户使用移动端进行在线听歌的过程中,他们所使用的环境是不断改变的,网络状态的改变,手机电量的改变。所以,该方法对用户的决策制定运用数学建模,仿真并且优化获取最佳决策,从而达到降低手机能耗的功能。为了实现上述目的,本专利技术采用的技术方案是:一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法,包括以下步骤:1)在不同的网络状态下进行在线听歌,通过专业仪器检测测试手机电池功率,测试手机收集每个时间段网络信号强度,整理出用户的环境状态,分别为网络信号强度值,时间状态,手机剩余电量数值;2)建立Q-learning模型,根据步骤1)所采集到的环境状态建立Q-learning状态空间,其次建立Q-learning模型的动作集合,建立Q-learning动作空间,将网络状态定义为奖励值,仿真Q-learning模型变化过程,寻找Q值最优动作;3)MATLAB仿真Q-learning模型,运用最优解搜索策略,求解模型的最优解;4)设备通过系统获取到的环境状态的各个值,利用Q学习的搜索策略,根据Q值不断选择最佳动作,达到能耗优化。进一步,一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法,其详细步骤如下:1)步骤1所述的系统自动采集环境值:在wifi环境下与4g环境下分别使用自主开发的移动端在线音乐播放器从服务器端在线听歌时,通过MonsoonSolutions检测测试手机电池功率,安卓自带API收集每个时间段网络信号强度,整理出用户的环境状态,分别为网络信号强度值,将网络信号分为五个等级,根据不同的dbm从高到低分为1,2,3,4,5五个等级,时间状态,将总时长化为若干时间点,手机剩余电量数值,将这三类采集到的环境状态,按格式整理排列,存储于手机本地,后上传至电脑;2)建立Q-learning数学模型,根据步骤1)中所采集到的环境状态值作为Q-learning模型的状态集,其主要为三个值,网络信号等级值,手机剩余电量数值,时间点,其次建立Q-learning模型的动作集合,动作集合,状态转换的时候,我们会在其中选择一个相对应的最佳动作a;3)将系统获取到的环境值输入MATLAB中进行仿真,其中Q-learning通过对周围环境的不断交互,用试错的方法进行不断尝试,智能体可以自主选择最佳动作目标,对于Q学习方法,采用贪婪算法,在任一状态下,以小概率选取动作a,以1-选择Q值为最大的动作,以此选择最优动作,生成最优状态;4)在实际使用中,移动端听歌设备通过系统获取到的环境状态的各个值,用到了Q-learning学习的搜索策略,根据Q值不断选择最佳动作,也就是动态调节下载的音乐质量的高低,从而达到能耗优化的目的。进一步,本模型中,根据网络信号强度来选择不同的动作,也就是播放器在线播放的不同的音频质量,按大小,格式分为了无损,高清,低清,也按等级划分,分别为3,2,1,本文奖励函数R(s,s’)表示为网络强度N时执行了动作a,状态由s转换到s’所获取的奖励值,定义为执行动作时的网络等级值为奖励值,当信号小于低清所需要的网络等级时,奖励值为0。本专利技术的有益效果是:本方法考虑到网络状态的不同,手机剩余电量的不同,在Q-learning学习过程中通过Q值的迭代找到最优策略,动态调整下载的音乐质量的高低,选择最佳质量的音频,在满足用户体验的情况下尽可能降低移动设备的能耗。附图说明图1为本专利技术的系统结构示意图;图2为Q-learning学习过程示意图;图3为本专利技术的工作流程图。具体实施方式下面结合实施例和说明书附图对本专利技术的技术方案做详细的说明,但不限于此。如图3所示,一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法,包括以下步骤:1)步骤1所述的系统自动采集环境值:在wifi环境下与4g环境下分别使用自主开发的移动端在本文档来自技高网
...

【技术保护点】
1.一种基于Q‑learning的移动端音乐播放器动态调节能耗优化方法,其特征在于,包括以下步骤:1)在不同的网络状态下进行在线听歌,通过专业仪器检测测试手机电池功率,测试手机收集每个时间段网络信号强度,整理出用户的环境状态,分别为网络信号强度值,时间状态,手机剩余电量数值;2)建立Q‑learning模型,根据步骤1)所采集到的环境状态建立Q‑learning状态空间,其次建立Q‑learning模型的动作集合,建立Q‑learning动作空间,将网络状态定义为奖励值,仿真Q‑learning模型变化过程,寻找Q值最优动作;3)MATLAB仿真Q‑learning模型,运用最优解搜索策略,求解模型的最优解;4)设备通过系统获取到的环境状态的各个值,利用Q学习的搜索策略,根据Q值不断选择最佳动作,达到能耗优化。

【技术特征摘要】
1.一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法,其特征在于,包括以下步骤:1)在不同的网络状态下进行在线听歌,通过专业仪器检测测试手机电池功率,测试手机收集每个时间段网络信号强度,整理出用户的环境状态,分别为网络信号强度值,时间状态,手机剩余电量数值;2)建立Q-learning模型,根据步骤1)所采集到的环境状态建立Q-learning状态空间,其次建立Q-learning模型的动作集合,建立Q-learning动作空间,将网络状态定义为奖励值,仿真Q-learning模型变化过程,寻找Q值最优动作;3)MATLAB仿真Q-learning模型,运用最优解搜索策略,求解模型的最优解;4)设备通过系统获取到的环境状态的各个值,利用Q学习的搜索策略,根据Q值不断选择最佳动作,达到能耗优化。2.根据权利要求1所述的一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法,其详细步骤如下:1)步骤1所述的系统自动采集环境值:在wifi环境下与4g环境下分别使用自主开发的移动端在线音乐播放器从服务器端在线听歌时,通过MonsoonSolutions检测测试手机电池功率,安卓自带API收集每个时间段网络信号强度,整理出用户的环境状态,分别为网络信号强度值,将网络信号分为五个等级,根据不同的dbm从高到低分为1,2,3,4,5五个等级,时间状态,将总时长化为若干时间点,手机剩余电量数值,将这三类采集到...

【专利技术属性】
技术研发人员:高岭赵子鑫袁璐张晓任杰王海党从心秦晨光
申请(专利权)人:西北大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1