【技术实现步骤摘要】
一种可充电群车智能中的数据采集方法
本专利技术属于可充电群车智能
,尤其涉及一种可充电群车智能中的数据采集方法,本专利技术具体应用于无人车导航与数据采集方面的工作领域。
技术介绍
目前,群车智能已经得到越来越好的发展。不同于需要专业人士进行的传统采集方法,群车智能考虑采用无人车这样的无人设备进行更加有效的数据采集。这些无人车一般都装载了高精度传感器,能够比普通的采集设备(如手机及其他可穿戴设备)采集更大范围的数据。为了更好地使用无人车,考虑在指定的地点建立充电站,但是无人车需要自己决定什么时候暂时停止采集大量的数据,而是去往充电站进行补给。显然,这与绝大多数强化学习问题一样,也是一个决策问题。中国专利申请号为2012103952498的专利公开了一种充电桩信息采集及装置,涉及交通信息处理领域,能够实时向浮动车提供预设充电桩信息,满足浮动车对充电桩信息的需求。一种充电桩信息采集方法,该方法包括:接收至少一辆浮动车发送的全球定位系统GPS信息,所述GPS信息携带有所述浮动车在不同位置的停留时间;若根据所述GPS信息确定至少一辆所述浮动车停留在同一位置的时间大于第一预设阈值,则根据所述位置更新电子地图上的预设充电桩,以实时向所述浮动车提供所述预设充电桩信息。申请号2017100657318的专利公开了一种群互联控制电动汽车充电监控系统及方法,包括:群管理控制层、群功率调度层、群功率输出层;群管理控制层与群功率调度层和群功率输出层分别通信;所述群管理控制层根据群功率调度层计算的数据向群功率输出层发送充电控制指令 ...
【技术保护点】
1.一种可充电群车智能中的数据采集方法,其特征在于,包括以下步骤:/n步骤1,运行单个Learner,单个Learner包含一个提取空间信息的CNN网络,多个actor-critic网络;在Learner里,每一个无人车v,都存在和DDPG方法定义相同的actor网络
【技术特征摘要】 【专利技术属性】
1.一种可充电群车智能中的数据采集方法,其特征在于,包括以下步骤:
步骤1,运行单个Learner,单个Learner包含一个提取空间信息的CNN网络,多个actor-critic网络;在Learner里,每一个无人车v,都存在和DDPG方法定义相同的actor网络critic网络以及他们各自的目标actor网络π′v(.)、目标critic网络Q′v(.),t表示时间顺序,st表示t时无人车v当前所处业务场景的状态,表示无人车v在t时的行为,表示t时无人车v在当前业务场景中能够观察到的状态,每个无人车v根据经过CNN提取空间信息的小批量经验数据,更新各自对应的actor-critic网络:
步骤2,Worker生成经验,包含多个生成经验的Worker,每个生成经验的Worker在回合开始时完全相同,所有Worker之间、所有Worker与Learner之间异步地执行任务,生成经验数据,存储到本地经验缓冲池中,然后转移到对应的全局经验缓冲池中。
2.根据权利要求1所述的一种可充电群车智能中的数据采集方法,其特征在于,所述步骤1包括以下步骤:
步骤1.1,初始化折扣因子γ以及参数更新比例τ;
步骤1.2,随机初始化每一个无人车v的参数与分别初始化critic网络以及actor网络
步骤1.3,初始化每一个无人车v两个目标网络的参数
步骤1.4,初始化每一个无人车v的全局经验缓冲池Bv;
步骤1.5,带有优先级与LSTM的经验复用机制。如果无人车v的Bv中经验数据数量大于等于H,执行此机制进行采样,否则重新开始循环;
步骤1.6,CNN网络提取空间信息。CNN网络的卷积层和全连接层层数能够根据情况调节。
步骤1.7,actor-critic更新网络权重,每一个无人车v根据经过CNN提取空间信息的小批量经验数据,更新各自对应的actor-critic网络;
步骤1.8,重新计算本次采样的小批量经验数据每一个状态转移组的时序差分值,简称TD-error,使用如下公式:
然后计算当前状态转移组的优先级权重,使用如下公式:
指数α是一个超参数,体现了无人设备v在训练抽样过程中对整个优先级值的重视程度,而α=0自然就表示根据均匀分布进行抽样;
步骤1.9,如果无人车v的全局经验缓冲池Bv被填满,移除最过时的经验;
步骤1.10,步骤1.5到1.9重复M次,M为episode的数量。
3.根据权利要求1所述的一种可充电群车智能中的数据采集方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1,每一个任务回合中,初始化每一个无人车v的本地环境,得到全局初始状态s0。
步骤2.2,初始化每一个生成经验的Worker对应的本地经验缓冲池B,负责当前本地环境内每一个状态转移组的收集;
步骤2.3,从Learner中拷贝每一个无人车v对应actor的最新参数初始化每一个无人车v的本地策略πv(·)用于行为决策;
步骤2.4,每一个无人车v从本地环境中获取的对当前状态的观察来决策出行为在策略分布中加入了随机的噪声;
步骤2.5,环境执行每一个无人车的行为输出全局奖励rt,并得到新的状态st+1;
步骤2.6,每一个无人车v根据全局奖励rt和st+1,得到自己的即时奖励以及对下一步本地环境的观察
步骤2.7,首先计算时序差分值,简称TD-error,使用如下公式:
然后计算当前状态转移组的优先级权重,使用如下公式:
其中:指数α是一个超参数,体现了无人设备v在训练抽样过程中对整个优先级值的重视程度,而α=0自然就表示根据均匀分布进行抽样;
技术研发人员:刘驰,戴子彭,辛高枫,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。