基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法技术

技术编号:22333810 阅读:39 留言:0更新日期:2019-10-19 12:58
本发明专利技术公开了基于Q‑learning的工业互联网机器设备用户数据计算卸载决策方法,通过构造小区内用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型,并根据小区内用户数,设置Q‑learning模型中的环境状态、卸载动作和奖励函数,从而依据Q‑learning迭代学习后所获得的Q表执行卸载动作,获得最优的卸载策略,完成小区内用户计算任务的分配处理。本发明专利技术克服了传统数据计算卸载系统无法应对复杂多变的网络环境和服务器状态以及局限于对单一开销优化等问题。仿真实验表明,本发明专利技术提出的基于Q‑learning的工业互联网设备用户数据计算卸载决策方法在减少用户总体和局部计算卸载开销方面具有一定的优势。

Q-learning based decision-making method for user data calculation and unloading of industrial Internet machine equipment

【技术实现步骤摘要】
基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
本专利技术涉及一种基于Q-learning的工业互联网设备用户数据计算卸载决策方法,通过Q-learning算法,设计一种有利于降低工业互联网中的机器设备系统开销的决策方案,属于数据计算与执行决策的相关领域。
技术介绍
当前,第五代(thefifthgeneration,5G)移动通信网络技术已经从概念逐渐步入商用,并将对智能生活产生重大而深远的意义,5G的普及将为各类以网络为支撑的移动互联网应用带来广阔的发展前景和机遇。与此同时,5G高速率、低时延、广连接的特点也将会为用户提供更优质、更高效的服务,从而满足用户不同的网络需求和服务质量(qualityofservice,QoS)。与传统的无线通信网络相比,网络中包含有数量庞大的机器类型通信设备(machine-typecommunicationdevices,MTCDs)将是5G网络场景中最显著的特征。作为工业互联网(IndustrialInternet)的重要载体,多功能、多种类、多QoS需求的MTCD将成为5G网络中的重要组成部分,它们在承载、提供各种网络应用的同时,也将带来海量的网络资源占用、数据计算与传输以及系统能耗开销等。与此同时,5G的网络通信成本也是一个不可忽视的问题。面对5G等数据网络可能产生高昂的使用费用,WiFi仍是网络接入的重要选择之一。在大量机器类通信设备网络接入的背景下,网络连接的成本问题也成为需要考虑的因素之一。为应对工业互联网机器设备计算能力有限、网络拥塞等问题,移动边缘计算(mobileedgecomputing,MEC)技术在5G与工业互联网场景中将扮演重要的角色。移动边缘计算可实现在网络边缘为用户提供计算服务,其服务器的计算能力远大于机器设备。同时,相比于传统的云计算,移动边缘计算虽在计算能力方面稍显不足,但可大幅度减少网络传输时延,并有效缓解网络拥塞等问题,也降低了网络负载开销。然而,在一定范围内,工业互联网机器设备数量极其庞大,当这些设备同时发送计算服务请求时,将超出MEC服务器的计算负载。另一方面,由于地理位置的限制,一些偏远位置的机器设备不易更换电池,导致此类设备自身能量有限,无法承受计算能耗过大的任务,存在大量计算任务卸载到其他数据计算服务器协助执行的需求。并且,庞大的设备数量决定了网络连接以及计算成本也是必然要考虑的要素。因此,在不超出MEC服务器负载的前提下,以尽可能小的能耗、经济等开销处理工业互联网机器设备产生的计算任务,成为当下的热门研究问题。针对以上问题,北京交通大学的Li等人主要研究了工业互联网场景中云计算与移动边缘计算协作的计算卸载策略,提出一种节能型计算卸载和资源分配框架,可有效减少系统能耗达到50%。西安电子科技大学的Guo等人针对工业互联网机器设备计算密集型与计算资源受限相冲突的问题,提出了一种基于博弈论的联合计算卸载框架,实现MEC和Cloud的合作卸载,可使机器设备充分利用分布式MEC服务器和中心云服务器的计算资源,有效减少运行成本和能耗。然而,传统方法在应对工业互联网机器设备计算卸载的问题时还存在一些局限性,例如,无法适应复杂多变的网络环境以及无法支持工业互联网庞大的设备数量。与此同时,针对这类状态变化频繁、不易建模的动态系统,强化学习(reinforcementlearning,RL)逐渐成为一类热门的解决方法。强化学习中agent通过对环境施加动作,并得到环境返回的动作评价,逐渐学习到在复杂环境中一些问题的最佳解决方案。基于强化学习无模型学习的优势,并针对任务卸载中复杂、时变的网络环境,近年来结合强化学习算法优化卸载策略的研究逐渐增加。MEDIATRON实验室的Emna等人基于Q-learning算法,依据用户的位置,获得最佳的WiFi连接策略。此外,新加坡国立大学的Le等人基于强化学习实现对用户多任务卸载的决策优化,有效减少用户设备能耗。尽管上述研究基于强化学习算法优化了网络连接或多任务卸载等策略,但仍存在只考虑信道、服务器状态等单一环境因素或只局限于对能耗、时延等单一因素优化的问题,并未深入考虑多种环境因素的影响或是对多种开销的联合优化。综上所述,本专利技术将面向工业互联网场景中机器设备的计算任务卸载问题,提出一种基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法,综合考虑工业互联网机器设备卸载过程中的网络环境和服务器状态,并联合优化设备卸载过程产生的时延、能耗和经济开销,也可根据实际需求调整加权参数,对三者之一进行补偿优化。
技术实现思路
本专利技术的主要目的是在小区内用户计算任务卸载最优分配处理的角度上,考虑小区中存在1个部署MEC服务器的基站、多个WiFi节点和多个用户的情况下,以一段时间内小区中用户处理计算任务产生的总开销或单一开销达到最低为优化目标,通过Q-learning模型迭代学习,完成小区用户计算任务卸载的最优分配策略。本方法解决了在小区中有部署MEC服务器的基站、多个WiFi节点和多个用户的情况下,如何选择确定最优的用户计算任务处理分配策略的问题,并通过执行最优卸载策略获得一段时间内小区用户计算任务处理的最低总开销。本专利技术所适应的小区环境场景模型见图1。本专利技术技术方案中的系统运行原理流程图见图2。本专利技术系统总开销与任务数据量关系图见图3。本专利技术系统总开销与任务复杂度关系图见图4。本专利技术系统经济开销与权值系数关系图见图5。本专利技术的小区场景环境模型如图1所示,基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法,其特点在于:在某个通信小区中,存在N个用户、M个WiFi节点和1个部署了MEC服务器的基站,当已知小区内用户数、WiFi节点数和优化目标(全局优化或补偿优化)后,根据实际情况配置网络模型、时延模型、能耗模型和经济开销模型中的环境参数,并构造Q-learning中的状态、卸载动作和奖励函数,随后依据优化目标设置权值参数进行Q-learning迭代,学习到不同网络和服务器环境下用户计算任务的最佳处理方式(本地处理或多种卸载处理),获得相应优化目标的Q表,最后根据优化目标选择对应的训练完成的Q表,以此为指导执行最优策略,从而达到此环境下用户计算任务处理的最低总开销,具体依次按以下步骤实现:步骤(1),系统初始化,根据实际情况有:小区内包含有N个有卸载需求的用户,用户每隔时间t产生计算任务,且任务的数据量为d,复杂度为c,小区内还存在1个部署了MEC服务器的基站,和M个WiFi节点供连接,MEC服务器的最大负载为L,用户从移动网络获得的带宽和传输功率分别为Bb和pb,从WiFi网络获得的带宽和传输功率分别为Bw和pw;步骤(2),根据用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型,结合实际情况,设置各模型中的参数,并计算在卸载过程中每种卸载决策产生的时延、能耗和经济开销,具体步骤如下:步骤(2.1),当用户数为m时,计算用户与基站间的网络传输速率rb和用户与WiFi节点间的网络传输速rw率,分别表示为:其中,hb和hw分别为移动网络和WiFi网络的信道增益,Nb和Nw分别为移动网络和WiFi网络中噪声的功率谱密度;步骤(2.2),分别计算用户在本地本文档来自技高网
...

【技术保护点】
1.基于Q‑learning的工业互联网机器设备用户数据计算卸载决策方法,其特点在于:在某个通信小区中,存在N个用户、M个WiFi节点和1个部署了MEC服务器的基站,当已知小区内用户数、WiFi节点数和优化目标后,根据实际情况配置网络模型、时延模型、能耗模型和经济开销模型中的环境参数,并构造Q‑learning中的状态、卸载动作和奖励函数,随后依据优化目标设置权值参数进行Q‑learning迭代,学习到不同网络和服务器环境下用户计算任务的最佳处理方式,获得相应优化目标的Q表,最后根据优化目标选择对应的训练完成的Q表,以此为指导执行最优策略,从而达到此环境下用户计算任务处理的最低总开销,具体依次按以下步骤实现:步骤(1),系统初始化,根据实际情况有:小区内包含有N个有卸载需求的用户,用户每隔时间t产生计算任务,且任务的数据量为d,复杂度为c,小区内还存在1个部署了MEC服务器的基站,和M个WiFi节点供连接,MEC服务器的最大负载为L,用户从移动网络获得的带宽和传输功率分别为Bb和pb,从WiFi网络获得的带宽和传输功率分别为Bw和pw;步骤(2),根据用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型,结合实际情况,设置各模型中的参数,并计算在卸载过程中每种卸载决策产生的时延、能耗和经济开销;步骤(3),根据步骤(2)中构造完成的网络模型、时延模型、能耗模型和经济开销模型,并结合优化场景,设置Q‑learning中的状态、动作和奖励函数;步骤(4),根据优化目标和权值参数范围设置权值参数,若进行全局优化,权值参数Wd、We、Wm均设为...

【技术特征摘要】
1.基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法,其特点在于:在某个通信小区中,存在N个用户、M个WiFi节点和1个部署了MEC服务器的基站,当已知小区内用户数、WiFi节点数和优化目标后,根据实际情况配置网络模型、时延模型、能耗模型和经济开销模型中的环境参数,并构造Q-learning中的状态、卸载动作和奖励函数,随后依据优化目标设置权值参数进行Q-learning迭代,学习到不同网络和服务器环境下用户计算任务的最佳处理方式,获得相应优化目标的Q表,最后根据优化目标选择对应的训练完成的Q表,以此为指导执行最优策略,从而达到此环境下用户计算任务处理的最低总开销,具体依次按以下步骤实现:步骤(1),系统初始化,根据实际情况有:小区内包含有N个有卸载需求的用户,用户每隔时间t产生计算任务,且任务的数据量为d,复杂度为c,小区内还存在1个部署了MEC服务器的基站,和M个WiFi节点供连接,MEC服务器的最大负载为L,用户从移动网络获得的带宽和传输功率分别为Bb和pb,从WiFi网络获得的带宽和传输功率分别为Bw和pw;步骤(2),根据用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型,结合实际情况,设置各模型中的参数,并计算在卸载过程中每种卸载决策产生的时延、能耗和经济开销;步骤(3),根据步骤(2)中构造完成的网络模型、时延模型、能耗模型和经济开销模型,并结合优化场景,设置Q-learning中的状态、动作和奖励函数;步骤(4),根据优化目标和权值参数范围设置权值参数,若进行全局优化,权值参数Wd、We、Wm均设为若进行补偿优化,补偿目标的权值参数设为0.8,其余权值参数均设为0.1;0≤Wd≤1、0≤We≤1、0≤Wm≤1、Wd+We+Wm=1;步骤(5),根据步骤(4)中设置的权值参数和Q-learning迭代公式,训练不同优化目标的Q表,Q表是一张负责记录Q-learning中状态-动作值(简称Q值)的表格,其结构如下:Q表其中,(a1,a2...am...aM)为所有可选择的卸载动作,(s1,s2...sn...sN)为所有可能出现的状态,Q(s1,a1)表示在状态s1下执行动作a1的数值,在初始状态下,Q表中的Q值均为0,当系统执行卸载动作时,致使环境跳变至下一状态,并从环境中获得奖励,随后将根据获得的即时奖励和跳变状态对Q值进行数值迭代,其迭代公式表示为:Q(s,a)←Q(s,a)+α[r+γmaxQ(s’,a’)-Q(s,a)]其中,Q(s,a)表示在状态s下做动作a时的Q值;α为学习效率,影响Q表的更新速度;r为即时奖励,γ为奖励延迟,maxQ(s’,a’)表示下一状态中可选动作中的最大Q值;步骤(6),根据不同的优化目标选择步骤(5)中对应的训练完成的Q表,并按照选定Q表执行该场景下的最优卸载策略,在按照Q表执行策略时,系统将会选择每个状态下Q值最大的动作作为该状态下的最优动作,直至执行指令结束。2.根据权利要求1所述的基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法,其特点在于:步骤2的实施过程如下,步骤(2.1),当用户数为m时,计算用户与基站间的网络传输速率rb和用户与WiFi节点间的网络传输速rw率,分别表示为:其中,hb和hw分别为移动网络和WiFi网络的信道增益,Nb和Nw分别为移动网络和WiFi网络中噪声的功率谱密度;步骤(2.2),分别计算用户在本地处理任务和卸载处理任务产生的时延,当用户选择在本地处理任务时,任务时延Dl表示为:Fl为用户本地C...

【专利技术属性】
技术研发人员:李萌杨乐张延华吴文君杨睿哲孙阳
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1