一种面向维舍克集群模型的行为模仿方法技术

技术编号：30140963 阅读：31 留言：0更新日期：2021-09-23 15:03

本发明专利技术提出一种面向维舍克集群模型的行为模仿方法，在传统基于生成对抗网络的模仿学习算法基础上，引入了基于种群的训练方法，并将该方法用于面向维舍克模型的集群行为模仿上。本发明专利技术对比单线程的生成对抗模仿学习算法，结合了基于种群的训练方式，能够更快地使训练网络收敛；而且引入种群适应度，使得训练模型的效果可供技术人员观测，训练效果过程可视化；本发明专利技术能够提高面向维舍克集群模型寻找最优参数的效率。最优参数的效率。最优参数的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向维舍克集群模型的行为模仿方法

[0001]本专利技术是一种面向维舍克集群模型的行为模仿方法，涉及机器学习、分布式多智能体、集群控制等

技术介绍

[0002]群体智能是大自然中生物群体呈现的智慧。近年来，人们在赞叹自然界中形态百变、组织有序的群体行为时，也对其背后的机理展开了深刻的研究。模仿群体行为是理解群体行为机理的重要手段之一，人们通过复现群体行为加深对群体行为的认知层次。因此，如何高效地模仿生物群体的行为策略具有深远的研究意义。
[0003]模仿学习是一种数据驱动的机器学习方法，能够模仿专家演示的样本数据来解决智能体的序贯决策问题。模仿学习已经在停车场导航、机器臂抓取、词句生成、对话智能等多个任务域内都取得了不错的研究进展。传统的模仿学习方法有行为克隆技术、逆强化学习、基于生成对抗网络的模仿学习等方法。行为克隆是基于专家示教数据的监督学习的方法，然而，这种方法往往会累积决策误差，并逐渐影响序贯决策的效果。逆强化学习首先通过学习示教数据得到一个奖励函数，再用强化学习的方法求取专家策略，这种方法往往...

【技术保护点】

【技术特征摘要】
1.一种面向维舍克集群模型的行为模仿方法，其特征在于：包括以下步骤：步骤1：基于维舍克模型，采集集群中每个个体在每个时间步的观测
‑
动作元组<s
i
,a
i
>，其中s
i
表示当前时刻集群内个体i的观测向量，a
i
表示当前观测下集群个体i的转向动作；步骤2：进行模型初始化过程：初始化神经网络训练种群，设定神经网络种群规模为K，每个训练个体包括一组“生成器
‑
判别器”组合，生成器由actor网络和critic网络组成，判别器则由另外的一个单独的网络组成；步骤3：初始化训练种群后，在每个训练种群的仿真环境下，集群环境内每个集群个体共用当前训练种群的生成器作为控制模型，与环境进行交互，生成经验元组，并储存在经验元组缓存池中；经验元组为<o
i
,u
i
,r
i
,d
i
,e
i
>其中，o
i
表示当前时刻集群个体i的观测，与步骤1中s
i
组成形式相同；u
i
表示当前时刻集群个体i的动作，与步骤1中a
i
性质相同，在输入为o
i
时由对应训练种群中的生成器的actor网络生成：u
i
＝G(o
i
)其中，G为当前训练种群生成器的actor网络；r
i
表示当前时刻集群个体i的奖励值，由判别器网络输出得到：r
i
＝
‑
log(D(o
i
,u
i
))其中，D为当前训练种群的判别器；d
i
是一个布尔值，表示当前时刻是否继续将生成器与环境交互；e
i
表示当前时刻集群个体观测的价值，由critic网络输出得到：e
i
＝V(o
i
)其中，V为当前训练种群生成器的critic网络；步骤4：从专家示教和经验缓存池分别加载L条数据，进行判别器参数更新：loss_1＝BCE(D(S
e
,A
e
),0)loss_2＝BCE(D(S
g
,A
g
),1)loss＝(loss_1+loss_2)/2其中，BCE()表示交叉熵损失函数；D()表示当前训练种群的判别器；S
e
,A
e
表示专家示教数据中抽取L数目的s
i
,a
i
向量；S
g
,A
g
表示经验缓存池中抽取L数目的o
i
,u
i
向量；0,1表示专家数据和经验缓存池数据的样本标签；通过loss_1,loss_2计算得到一个带有梯度信息的loss，并利用带有梯度信息的loss对判别器网络参数进行更新；步骤5：对生成器的参数进行更新，包括actor网络更新和critic网络更新两部分；先更新critic网络，按存储顺序从经验池中依次提取L条经验元组，网络更新公式为其中，Mean()表示求均值；分别表示按时间顺序存储的下一时刻奖励值和当前时刻奖励值；γ是一个折扣因子；均为当前时刻元组内的元素；利用公式得到带梯度信息的损失值loss_value_net来更新critic网络的参数；
然后更新actor网络参数，先计算每个经验元组...

【专利技术属性】
技术研发人员：彭星光，刘硕，王童豪，宋保维，潘光，张福斌，高剑，李乐，张立川，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人