【技术实现步骤摘要】
一种车载网环境下基于深度强化学习的任务调度方法
本专利技术属于计算机移动云计算领域,尤其涉及一种车载网环境下基于深度强化学习的任务调度方法。
技术介绍
移动云计算(MobileComputing),是随着近几年随着移动终点的迅猛发展而兴起的一种新的云计算模式。它为移动终端用户,以及云服务提供商提供了丰富的计算资源。移动终端可以将任务卸载到云端,云端将计算的结果返回移动终端以克服移动终端计算能力有限的问题并可以减小移动端电量的损耗。车载网(vehicularad-hocnetwork简称VANET)作为自组织网络的典型案例,可以通过车与车的通信(V2V)与车到基础设施的通信(V2I)来进行数据共享与任务卸载。随着中国城市化进程的发展,越来越多家庭购买汽车以方便家庭出行。汽车厂商的一大买点就是在汽车上装载了丰富的传感器与车载设备,用户可以使用这些设备观看多媒体视频,享受基于位置的服务以达到提高出行体验的目的。而在这些丰富的设备中,大量设备是闲置的。“ArifS,OlariuS,WangJ,etal.Datacenterattheairport:Reasoningabo ...
【技术保护点】
一种车载网环境下基于深度强化学习的任务调度方法,其特征在于,包括以下步骤:步骤1,在一定范围内,获取每一个路侧单元覆盖范围内的车流量数据;步骤2,获取每一个路侧单元的负载数据,并将此负载数据以多播形式传递共享给其他路侧单元;步骤3,构架神经网络,并进行初始化;步骤4,初始时间内,对于步骤1所述一定范围内到达的请求,随机选择在本地执行或者负载到任意其他路侧单元执行记录请求从到达到完成的时间;步骤5,当步骤4收集的数据到达一定规模,对神经网络进行更新;步骤6,对于新到达的请求,使用更新过的神经网络进行分配。
【技术特征摘要】
1.一种车载网环境下基于深度强化学习的任务调度方法,其特征在于,包括以下步骤:步骤1,在一定范围内,获取每一个路侧单元覆盖范围内的车流量数据;步骤2,获取每一个路侧单元的负载数据,并将此负载数据以多播形式传递共享给其他路侧单元;步骤3,构架神经网络,并进行初始化;步骤4,初始时间内,对于步骤1所述一定范围内到达的请求,随机选择在本地执行或者负载到任意其他路侧单元执行记录请求从到达到完成的时间;步骤5,当步骤4收集的数据到达一定规模,对神经网络进行更新;步骤6,对于新到达的请求,使用更新过的神经网络进行分配。2.根据权利要求1所述的方法,其特征在于,步骤1中,假设有N个路侧单元,获取每一个路侧单元在t时间段内的车流量,用Qi,t表示路侧单元Ri在t时间段内的车流量,Ri取值为1~N。3.根据权利要求2所述的方法,其特征在于,步骤2包括:步骤2-1,每一个路侧单元Ri记录当前任务队列长度Li,并将其共享给其他N-1个路侧单元;步骤2-2,对于一个路侧单元,当该路侧单元共享其队列长度给其他路侧单元时,记录当前共享时刻的任务队列长度为Llast,当新到达一个任务时队列长度加一,当完成一个任务时,队列长度减一;步骤2-3,当|Llast-Li|>δ时,路侧单元Ri将当前的最新队列长度通知到其余N-1个路侧单元,其中δ是一个触发状态共享的阈值;步骤2-4,每个路侧单元都得到一个当前全局的环境变量Vt,Vt=[Q1,t,Q2,t,…QN,t,L1,L2,…LN]T,QN,t表示路侧单元RN在t时间段内的车流量,LN表示路侧单元RN的当前队列长度。4.根据权利要求3所述的方法,其特征在于,步骤3包括:步骤3-1,神经网络输入层为2N个神经元,即为路侧单元的当前全局的环境变量Vt与任务包的大小PackageSize,任务包在网络间传播时间正比于任务包的大小,隐层为K个神经元,隐层设置为两层,输出层为N个神经元,使用ReLu函数作为神经网络的激活函数,Relu函数定义为对于给定变量x,其输出为g(x)=max(0,x),神经网络在第l层传播按照下面公式进行计算:fl(xl)=Wlxl+bl,其中,在输入层Wl为(2N)×K的矩阵,在第一个隐层到第二个隐层Wl为K×K的矩阵,在隐层到输出层Wl为K×N的矩阵,bl为第l层的偏移量,xl为第l层的输入;步骤3-2,对于神经元传播的权重,根据下述区间的一个均匀分布来初始化权重:其中fanin和fanout分别表示输入神经元的个数与输出神经元的个数,对于输出层到隐层fanin和fanout分别为2N+1和K,对于隐层到隐层fanin和fanout分别为K和K,从隐层到输出层fanin和fanout分别为K和N;步骤3-3:对于神经网络最后的输出,使用softmax函数得到每一个策略对应的概率,计算公式为:其中Pi代表当前任务派发到路侧单元Ri的概率,yi和yj分别为输出层第i个神经元的输出与第j个神经元的输出。5.根据权利要求4所述的方法,其特征在于,步骤4包括:步骤4-1,对于新到达的任务,以概率ε选择在本地执行任务,以1-ε的概率选择在其他路侧单元执行此任务;步骤4-2,如果选择其他路侧单元执行此任务,任务按照均匀分布分配到其余路侧单元,即分配到其余路侧单元的概率为1/(N-1);步骤4-3,对于第i个任务Ti={Vt,Proi,RSi,},其中Vt是步骤2-4得到的环境变量,Proi为分配到第i个路侧单元的概率,记录第i个任务Ti的响应时间RSi,即从任务到达路侧单元开始到执行为止的时间;如果任务在当前路侧单元即本地执行,则响应时间等于在当前任务队列的等待时间,如果任务在其它路侧单元执行,则响应时间等于网络传输时间加上在新的路侧单元的任务队列的等待时间,对于到达的每一个任务,收集记录其对应的环境变量、分配概率和相应时间信息。6.根据权利要求5所述的方法,其特征在于,步骤5中,当步骤4收集的数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。