【技术实现步骤摘要】
基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
本专利技术涉及一种基于Q-learning的工业互联网设备用户数据计算卸载决策方法,通过Q-learning算法,设计一种有利于降低工业互联网中的机器设备系统开销的决策方案,属于数据计算与执行决策的相关领域。
技术介绍
当前,第五代(thefifthgeneration,5G)移动通信网络技术已经从概念逐渐步入商用,并将对智能生活产生重大而深远的意义,5G的普及将为各类以网络为支撑的移动互联网应用带来广阔的发展前景和机遇。与此同时,5G高速率、低时延、广连接的特点也将会为用户提供更优质、更高效的服务,从而满足用户不同的网络需求和服务质量(qualityofservice,QoS)。与传统的无线通信网络相比,网络中包含有数量庞大的机器类型通信设备(machine-typecommunicationdevices,MTCDs)将是5G网络场景中最显著的特征。作为工业互联网(IndustrialInternet)的重要载体,多功能、多种类、多QoS需求的MTCD将成为5G网络中的重要组成部分,它们在承载、提供各种网络应用的同时,也将带来海量的网络资源占用、数据计算与传输以及系统能耗开销等。与此同时,5G的网络通信成本也是一个不可忽视的问题。面对5G等数据网络可能产生高昂的使用费用,WiFi仍是网络接入的重要选择之一。在大量机器类通信设备网络接入的背景下,网络连接的成本问题也成为需要考虑的因素之一。为应对工业互联网机器设备计算能力有限、网络拥塞等问题,移动边缘计算(mobileedgecompu ...
【技术保护点】
1.基于Q‑learning的工业互联网机器设备用户数据计算卸载决策方法,其特点在于:在某个通信小区中,存在N个用户、M个WiFi节点和1个部署了MEC服务器的基站,当已知小区内用户数、WiFi节点数和优化目标后,根据实际情况配置网络模型、时延模型、能耗模型和经济开销模型中的环境参数,并构造Q‑learning中的状态、卸载动作和奖励函数,随后依据优化目标设置权值参数进行Q‑learning迭代,学习到不同网络和服务器环境下用户计算任务的最佳处理方式,获得相应优化目标的Q表,最后根据优化目标选择对应的训练完成的Q表,以此为指导执行最优策略,从而达到此环境下用户计算任务处理的最低总开销,具体依次按以下步骤实现:步骤(1),系统初始化,根据实际情况有:小区内包含有N个有卸载需求的用户,用户每隔时间t产生计算任务,且任务的数据量为d,复杂度为c,小区内还存在1个部署了MEC服务器的基站,和M个WiFi节点供连接,MEC服务器的最大负载为L,用户从移动网络获得的带宽和传输功率分别为Bb和pb,从WiFi网络获得的带宽和传输功率分别为Bw和pw;步骤(2),根据用户计算卸载的网络模型、时延模型、 ...
【技术特征摘要】
1.基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法,其特点在于:在某个通信小区中,存在N个用户、M个WiFi节点和1个部署了MEC服务器的基站,当已知小区内用户数、WiFi节点数和优化目标后,根据实际情况配置网络模型、时延模型、能耗模型和经济开销模型中的环境参数,并构造Q-learning中的状态、卸载动作和奖励函数,随后依据优化目标设置权值参数进行Q-learning迭代,学习到不同网络和服务器环境下用户计算任务的最佳处理方式,获得相应优化目标的Q表,最后根据优化目标选择对应的训练完成的Q表,以此为指导执行最优策略,从而达到此环境下用户计算任务处理的最低总开销,具体依次按以下步骤实现:步骤(1),系统初始化,根据实际情况有:小区内包含有N个有卸载需求的用户,用户每隔时间t产生计算任务,且任务的数据量为d,复杂度为c,小区内还存在1个部署了MEC服务器的基站,和M个WiFi节点供连接,MEC服务器的最大负载为L,用户从移动网络获得的带宽和传输功率分别为Bb和pb,从WiFi网络获得的带宽和传输功率分别为Bw和pw;步骤(2),根据用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型,结合实际情况,设置各模型中的参数,并计算在卸载过程中每种卸载决策产生的时延、能耗和经济开销;步骤(3),根据步骤(2)中构造完成的网络模型、时延模型、能耗模型和经济开销模型,并结合优化场景,设置Q-learning中的状态、动作和奖励函数;步骤(4),根据优化目标和权值参数范围设置权值参数,若进行全局优化,权值参数Wd、We、Wm均设为若进行补偿优化,补偿目标的权值参数设为0.8,其余权值参数均设为0.1;0≤Wd≤1、0≤We≤1、0≤Wm≤1、Wd+We+Wm=1;步骤(5),根据步骤(4)中设置的权值参数和Q-learning迭代公式,训练不同优化目标的Q表,Q表是一张负责记录Q-learning中状态-动作值(简称Q值)的表格,其结构如下:Q表其中,(a1,a2...am...aM)为所有可选择的卸载动作,(s1,s2...sn...sN)为所有可能出现的状态,Q(s1,a1)表示在状态s1下执行动作a1的数值,在初始状态下,Q表中的Q值均为0,当系统执行卸载动作时,致使环境跳变至下一状态,并从环境中获得奖励,随后将根据获得的即时奖励和跳变状态对Q值进行数值迭代,其迭代公式表示为:Q(s,a)←Q(s,a)+α[r+γmaxQ(s’,a’)-Q(s,a)]其中,Q(s,a)表示在状态s下做动作a时的Q值;α为学习效率,影响Q表的更新速度;r为即时奖励,γ为奖励延迟,maxQ(s’,a’)表示下一状态中可选动作中的最大Q值;步骤(6),根据不同的优化目标选择步骤(5)中对应的训练完成的Q表,并按照选定Q表执行该场景下的最优卸载策略,在按照Q表执行策略时,系统将会选择每个状态下Q值最大的动作作为该状态下的最优动作,直至执行指令结束。2.根据权利要求1所述的基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法,其特点在于:步骤2的实施过程如下,步骤(2.1),当用户数为m时,计算用户与基站间的网络传输速率rb和用户与WiFi节点间的网络传输速rw率,分别表示为:其中,hb和hw分别为移动网络和WiFi网络的信道增益,Nb和Nw分别为移动网络和WiFi网络中噪声的功率谱密度;步骤(2.2),分别计算用户在本地处理任务和卸载处理任务产生的时延,当用户选择在本地处理任务时,任务时延Dl表示为:Fl为用户本地C...
【专利技术属性】
技术研发人员:李萌,杨乐,张延华,吴文君,杨睿哲,孙阳,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。