【技术实现步骤摘要】
一种面向维舍克集群模型的行为模仿方法
[0001]本专利技术是一种面向维舍克集群模型的行为模仿方法,涉及机器学习、分布式多智能体、集群控制等
技术介绍
[0002]群体智能是大自然中生物群体呈现的智慧。近年来,人们在赞叹自然界中形态百变、组织有序的群体行为时,也对其背后的机理展开了深刻的研究。模仿群体行为是理解群体行为机理的重要手段之一,人们通过复现群体行为加深对群体行为的认知层次。因此,如何高效地模仿生物群体的行为策略具有深远的研究意义。
[0003]模仿学习是一种数据驱动的机器学习方法,能够模仿专家演示的样本数据来解决智能体的序贯决策问题。模仿学习已经在停车场导航、机器臂抓取、词句生成、对话智能等多个任务域内都取得了不错的研究进展。传统的模仿学习方法有行为克隆技术、逆强化学习、基于生成对抗网络的模仿学习等方法。行为克隆是基于专家示教数据的监督学习的方法,然而,这种方法往往会累积决策误差,并逐渐影响序贯决策的效果。逆强化学习首先通过学习示教数据得到一个奖励函数,再用强化学习的方法求取专家策略,这种方法往往 ...
【技术保护点】
【技术特征摘要】
1.一种面向维舍克集群模型的行为模仿方法,其特征在于:包括以下步骤:步骤1:基于维舍克模型,采集集群中每个个体在每个时间步的观测
‑
动作元组<s
i
,a
i
>,其中s
i
表示当前时刻集群内个体i的观测向量,a
i
表示当前观测下集群个体i的转向动作;步骤2:进行模型初始化过程:初始化神经网络训练种群,设定神经网络种群规模为K,每个训练个体包括一组“生成器
‑
判别器”组合,生成器由actor网络和critic网络组成,判别器则由另外的一个单独的网络组成;步骤3:初始化训练种群后,在每个训练种群的仿真环境下,集群环境内每个集群个体共用当前训练种群的生成器作为控制模型,与环境进行交互,生成经验元组,并储存在经验元组缓存池中;经验元组为<o
i
,u
i
,r
i
,d
i
,e
i
>其中,o
i
表示当前时刻集群个体i的观测,与步骤1中s
i
组成形式相同;u
i
表示当前时刻集群个体i的动作,与步骤1中a
i
性质相同,在输入为o
i
时由对应训练种群中的生成器的actor网络生成:u
i
=G(o
i
)其中,G为当前训练种群生成器的actor网络;r
i
表示当前时刻集群个体i的奖励值,由判别器网络输出得到:r
i
=
‑
log(D(o
i
,u
i
))其中,D为当前训练种群的判别器;d
i
是一个布尔值,表示当前时刻是否继续将生成器与环境交互;e
i
表示当前时刻集群个体观测的价值,由critic网络输出得到:e
i
=V(o
i
)其中,V为当前训练种群生成器的critic网络;步骤4:从专家示教和经验缓存池分别加载L条数据,进行判别器参数更新:loss_1=BCE(D(S
e
,A
e
),0)loss_2=BCE(D(S
g
,A
g
),1)loss=(loss_1+loss_2)/2其中,BCE()表示交叉熵损失函数;D()表示当前训练种群的判别器;S
e
,A
e
表示专家示教数据中抽取L数目的s
i
,a
i
向量;S
g
,A
g
表示经验缓存池中抽取L数目的o
i
,u
i
向量;0,1表示专家数据和经验缓存池数据的样本标签;通过loss_1,loss_2计算得到一个带有梯度信息的loss,并利用带有梯度信息的loss对判别器网络参数进行更新;步骤5:对生成器的参数进行更新,包括actor网络更新和critic网络更新两部分;先更新critic网络,按存储顺序从经验池中依次提取L条经验元组,网络更新公式为其中,Mean()表示求均值;分别表示按时间顺序存储的下一时刻奖励值和当前时刻奖励值;γ是一个折扣因子;均为当前时刻元组内的元素;利用公式得到带梯度信息的损失值loss_value_net来更新critic网络的参数;
然后更新actor网络参数,先计算每个经验元组...
【专利技术属性】
技术研发人员:彭星光,刘硕,王童豪,宋保维,潘光,张福斌,高剑,李乐,张立川,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。