一种可充电群车智能中的数据采集方法技术

技术编号:23051337 阅读:38 留言:0更新日期:2020-01-07 14:58
本发明专利技术公开了一种可充电群车智能中的数据采集方法,本发明专利技术的e‑Divert框架结合Ape‑X机制、MADDPG算法、带有优先级与LSTM的经验复用机制,是一种新的分布式多智能体强化学习算法,带有优先级与LSTM的经验复用机制为本发明专利技术的创新点之一,机制整合了优先级经验复用机制和LSTM机制,实现了模型能够对N步时间序列的建模,并对环境进行有效地探索与优化,能够更好地学习多个无人车之间的竞争与合作机制,并有效地自动充电续航,从而提高能量利用率、数据采集率、采集广度,并同时有效地降低能耗比例。

A method of data collection in the intelligence of rechargeable group cars

【技术实现步骤摘要】
一种可充电群车智能中的数据采集方法
本专利技术属于可充电群车智能
,尤其涉及一种可充电群车智能中的数据采集方法,本专利技术具体应用于无人车导航与数据采集方面的工作领域。
技术介绍
目前,群车智能已经得到越来越好的发展。不同于需要专业人士进行的传统采集方法,群车智能考虑采用无人车这样的无人设备进行更加有效的数据采集。这些无人车一般都装载了高精度传感器,能够比普通的采集设备(如手机及其他可穿戴设备)采集更大范围的数据。为了更好地使用无人车,考虑在指定的地点建立充电站,但是无人车需要自己决定什么时候暂时停止采集大量的数据,而是去往充电站进行补给。显然,这与绝大多数强化学习问题一样,也是一个决策问题。中国专利申请号为2012103952498的专利公开了一种充电桩信息采集及装置,涉及交通信息处理领域,能够实时向浮动车提供预设充电桩信息,满足浮动车对充电桩信息的需求。一种充电桩信息采集方法,该方法包括:接收至少一辆浮动车发送的全球定位系统GPS信息,所述GPS信息携带有所述浮动车在不同位置的停留时间;若根据所述GPS信息确定至少一辆所述浮动车停留在同一位置的时间大于第一预设阈值,则根据所述位置更新电子地图上的预设充电桩,以实时向所述浮动车提供所述预设充电桩信息。申请号2017100657318的专利公开了一种群互联控制电动汽车充电监控系统及方法,包括:群管理控制层、群功率调度层、群功率输出层;群管理控制层与群功率调度层和群功率输出层分别通信;所述群管理控制层根据群功率调度层计算的数据向群功率输出层发送充电控制指令,所述群功率输出层将充电车辆的实时数据反馈给群管理控制层。综上所述,随着深度Q网络(DQN)在围棋与游戏上取得重大成就,一直以来被学界忽视的强化学习(Reinforcementlearning)方法重新登上历史舞台,被认为是解决复杂序列下的抉择问题的首选方法。DQN是传统Q-learning方法与深度神经网络的结合,并且首次引入了经验缓冲机制,使模型能够从一连串的图片帧中来学习不同的Atari游戏,最终能够达到人类的表现甚至超过人类。自此,为了提高Q网络的效果,诞生了众多的延伸工作来提高速度和稳定性。例如,优先级经验复用机制提高了复用过程中的数据利用率,能够更多次地使用更有用的数据。此后,强化学习方法成功延伸在了连续空间下的动作,诞生了新的通用actor-critic模型“DDPG”。最近,OpenAI团队又提出了强化学习在多智能体问题下的延伸模型“MADDPG”。算法能够让当前训练的智能体实时地从其他的智能体那里得到梯度优化信息,并反馈在自己的网络参数中,同时这个框架是一个非中心化的分布式训练框架。实验证明,MADDPG方法在多智能体合作与竞争的业务场景中,效果远远好于中心控制的DDPG方法,因此也被作为多智能体DRL方法中的首选。现有技术的缺点:是必须建立在中心控制的基础上,解决的是群车智能问题下的底层动态网络,这在实际的业务场景中可能不够实用。其次,没有考虑到使用无人车来进行更可靠与高效的数据采集服务。尽管Guizani教授的成果考虑到了使用无人设备进行采集,但并没有考虑到充电机制的问题,而后者才是在现实业务场景中对于无人车来讲最大的瓶颈。缺点是:非中心控制;未使用无人车;未考虑充电机制。
技术实现思路
本专利技术的目的在于提供一种能够克服上述技术问题的可充电群车智能中的数据采集方法,本专利技术所述方法包括以下步骤:步骤1,运行单个Learner,单个Learner包含一个提取空间信息的CNN网络,多个actor-critic网络;在Learner里,每一个无人车v,都存在和DDPG方法定义相同的actor网络critic网络以及他们各自的目标actor网络π′v(.)、目标critic网络Q′v(.),t表示时间顺序,st表示t时无人车v当前所处业务场景的状态,表示无人车v在t时的行为,表示t时无人车v在当前业务场景中能够观察到的状态。每个无人车v根据经过CNN提取空间信息的小批量经验数据,更新各自对应的actor-critic网络:步骤1.1,初始化折扣因子γ以及参数更新比例τ;步骤1.2,随机初始化每一个无人车v的参数与分别初始化critic网络以及actor网络步骤1.3,初始化每一个无人车v两个目标网络的参数步骤1.4,初始化每一个无人车v的全局经验缓冲池Bv;步骤1.5,带有优先级与LSTM的经验复用机制,当无人车v的Bv中经验数据数量大于等于H,执行所述机制进行采样,否则重新开始循环;步骤1.5.1,预先设置好LSTM状态序列长度ε与奖励序列长度N;步骤1.5.2,每一个无人车v从各自对应的优先级经验重播缓冲区中,根据优先级,并按相同索引t,进行小批量采样;步骤1.5.3,使用所述机制与N步奖励机制同时对当前的采样出的这批经验数据进行处理;步骤1.5.3.1,计算每个无人车v,N步连续状态对应的奖励计算公式如下:折扣因子γ∈[0,1];步骤1.5.3.2,得到每个无人车v的全局缓冲池Bv收集到的每一个索引t对应的两条观察状态序列与步骤1.5.3.3,在LSTM网络的帮助下,提取出各自的时序信息步骤1.5.3.4,使用代替状态转移组步骤1.6,CNN网络提取空间信息,CNN网络的卷积层和全连接层层数根据情况调节。步骤1.6.1,接收步骤1.5生成的小批量经验数据作为输入;步骤1.6.2,输入经过多个卷积层和全连接层处理,提取每个无人车v当前时序信息的空间信息;步骤1.6.3,将处理后的数据传递给Learner里的actor-critic网络;步骤1.7,actor-critic更新网络权重,每一个无人车v根据经过CNN提取空间信息的小批量经验数据,更新各自对应的actor-critic网络;步骤1.7.1,接收经过CNN提取空间信息的小批量经验数据;步骤1.7.2,每个无人车v的actor-critic网络根据对应的小批量经验数据生成自己的目标价值计算公式如下:其中π′v(.)的输入为经过带有优先级与LSTM的经验复用机制和CNN网络提取的空间信息,Q′v表示目标critic网络,折扣因子γ∈[0,1],为无人车v在t时N步连续状态对应的奖励;步骤1.7.3,通过如下最小化公式,来相应地更新无人车v的critic网络的权重,所采用的更新方法是标准的梯度下降法:步骤1.7.4,通过如下最小化公式,来相应地更新无人车v的actor网络的权重,所采用的更新方法是标准的梯度下降法:步骤1.7.5,使用如下软更新的方法相应的更新每个无人车v的目标critic网络权重。τ∈[0,1]是参数更新比例;步骤1.7.6,使用如下软更新的方法相应的更新每个无人车v的目标actor网络权重;步骤1.8,重新计算本次采样的小批量经验数据每一个状态转移组的时序差分值本文档来自技高网
...

【技术保护点】
1.一种可充电群车智能中的数据采集方法,其特征在于,包括以下步骤:/n步骤1,运行单个Learner,单个Learner包含一个提取空间信息的CNN网络,多个actor-critic网络;在Learner里,每一个无人车v,都存在和DDPG方法定义相同的actor网络

【技术特征摘要】
1.一种可充电群车智能中的数据采集方法,其特征在于,包括以下步骤:
步骤1,运行单个Learner,单个Learner包含一个提取空间信息的CNN网络,多个actor-critic网络;在Learner里,每一个无人车v,都存在和DDPG方法定义相同的actor网络critic网络以及他们各自的目标actor网络π′v(.)、目标critic网络Q′v(.),t表示时间顺序,st表示t时无人车v当前所处业务场景的状态,表示无人车v在t时的行为,表示t时无人车v在当前业务场景中能够观察到的状态,每个无人车v根据经过CNN提取空间信息的小批量经验数据,更新各自对应的actor-critic网络:
步骤2,Worker生成经验,包含多个生成经验的Worker,每个生成经验的Worker在回合开始时完全相同,所有Worker之间、所有Worker与Learner之间异步地执行任务,生成经验数据,存储到本地经验缓冲池中,然后转移到对应的全局经验缓冲池中。


2.根据权利要求1所述的一种可充电群车智能中的数据采集方法,其特征在于,所述步骤1包括以下步骤:
步骤1.1,初始化折扣因子γ以及参数更新比例τ;
步骤1.2,随机初始化每一个无人车v的参数与分别初始化critic网络以及actor网络
步骤1.3,初始化每一个无人车v两个目标网络的参数
步骤1.4,初始化每一个无人车v的全局经验缓冲池Bv;
步骤1.5,带有优先级与LSTM的经验复用机制。如果无人车v的Bv中经验数据数量大于等于H,执行此机制进行采样,否则重新开始循环;
步骤1.6,CNN网络提取空间信息。CNN网络的卷积层和全连接层层数能够根据情况调节。
步骤1.7,actor-critic更新网络权重,每一个无人车v根据经过CNN提取空间信息的小批量经验数据,更新各自对应的actor-critic网络;
步骤1.8,重新计算本次采样的小批量经验数据每一个状态转移组的时序差分值,简称TD-error,使用如下公式:



然后计算当前状态转移组的优先级权重,使用如下公式:



指数α是一个超参数,体现了无人设备v在训练抽样过程中对整个优先级值的重视程度,而α=0自然就表示根据均匀分布进行抽样;
步骤1.9,如果无人车v的全局经验缓冲池Bv被填满,移除最过时的经验;
步骤1.10,步骤1.5到1.9重复M次,M为episode的数量。


3.根据权利要求1所述的一种可充电群车智能中的数据采集方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1,每一个任务回合中,初始化每一个无人车v的本地环境,得到全局初始状态s0。
步骤2.2,初始化每一个生成经验的Worker对应的本地经验缓冲池B,负责当前本地环境内每一个状态转移组的收集;
步骤2.3,从Learner中拷贝每一个无人车v对应actor的最新参数初始化每一个无人车v的本地策略πv(·)用于行为决策;
步骤2.4,每一个无人车v从本地环境中获取的对当前状态的观察来决策出行为在策略分布中加入了随机的噪声;
步骤2.5,环境执行每一个无人车的行为输出全局奖励rt,并得到新的状态st+1;
步骤2.6,每一个无人车v根据全局奖励rt和st+1,得到自己的即时奖励以及对下一步本地环境的观察
步骤2.7,首先计算时序差分值,简称TD-error,使用如下公式:



然后计算当前状态转移组的优先级权重,使用如下公式:



其中:指数α是一个超参数,体现了无人设备v在训练抽样过程中对整个优先级值的重视程度,而α=0自然就表示根据均匀分布进行抽样;

【专利技术属性】
技术研发人员:刘驰戴子彭辛高枫
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1