一种面向维舍克集群模型的行为模仿方法技术

技术编号:30140963 阅读:31 留言:0更新日期:2021-09-23 15:03
本发明专利技术提出一种面向维舍克集群模型的行为模仿方法,在传统基于生成对抗网络的模仿学习算法基础上,引入了基于种群的训练方法,并将该方法用于面向维舍克模型的集群行为模仿上。本发明专利技术对比单线程的生成对抗模仿学习算法,结合了基于种群的训练方式,能够更快地使训练网络收敛;而且引入种群适应度,使得训练模型的效果可供技术人员观测,训练效果过程可视化;本发明专利技术能够提高面向维舍克集群模型寻找最优参数的效率。最优参数的效率。最优参数的效率。

【技术实现步骤摘要】
一种面向维舍克集群模型的行为模仿方法


[0001]本专利技术是一种面向维舍克集群模型的行为模仿方法,涉及机器学习、分布式多智能体、集群控制等


技术介绍

[0002]群体智能是大自然中生物群体呈现的智慧。近年来,人们在赞叹自然界中形态百变、组织有序的群体行为时,也对其背后的机理展开了深刻的研究。模仿群体行为是理解群体行为机理的重要手段之一,人们通过复现群体行为加深对群体行为的认知层次。因此,如何高效地模仿生物群体的行为策略具有深远的研究意义。
[0003]模仿学习是一种数据驱动的机器学习方法,能够模仿专家演示的样本数据来解决智能体的序贯决策问题。模仿学习已经在停车场导航、机器臂抓取、词句生成、对话智能等多个任务域内都取得了不错的研究进展。传统的模仿学习方法有行为克隆技术、逆强化学习、基于生成对抗网络的模仿学习等方法。行为克隆是基于专家示教数据的监督学习的方法,然而,这种方法往往会累积决策误差,并逐渐影响序贯决策的效果。逆强化学习首先通过学习示教数据得到一个奖励函数,再用强化学习的方法求取专家策略,这种方法往往能在示教数据下学习到本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向维舍克集群模型的行为模仿方法,其特征在于:包括以下步骤:步骤1:基于维舍克模型,采集集群中每个个体在每个时间步的观测

动作元组<s
i
,a
i
>,其中s
i
表示当前时刻集群内个体i的观测向量,a
i
表示当前观测下集群个体i的转向动作;步骤2:进行模型初始化过程:初始化神经网络训练种群,设定神经网络种群规模为K,每个训练个体包括一组“生成器

判别器”组合,生成器由actor网络和critic网络组成,判别器则由另外的一个单独的网络组成;步骤3:初始化训练种群后,在每个训练种群的仿真环境下,集群环境内每个集群个体共用当前训练种群的生成器作为控制模型,与环境进行交互,生成经验元组,并储存在经验元组缓存池中;经验元组为<o
i
,u
i
,r
i
,d
i
,e
i
>其中,o
i
表示当前时刻集群个体i的观测,与步骤1中s
i
组成形式相同;u
i
表示当前时刻集群个体i的动作,与步骤1中a
i
性质相同,在输入为o
i
时由对应训练种群中的生成器的actor网络生成:u
i
=G(o
i
)其中,G为当前训练种群生成器的actor网络;r
i
表示当前时刻集群个体i的奖励值,由判别器网络输出得到:r
i


log(D(o
i
,u
i
))其中,D为当前训练种群的判别器;d
i
是一个布尔值,表示当前时刻是否继续将生成器与环境交互;e
i
表示当前时刻集群个体观测的价值,由critic网络输出得到:e
i
=V(o
i
)其中,V为当前训练种群生成器的critic网络;步骤4:从专家示教和经验缓存池分别加载L条数据,进行判别器参数更新:loss_1=BCE(D(S
e
,A
e
),0)loss_2=BCE(D(S
g
,A
g
),1)loss=(loss_1+loss_2)/2其中,BCE()表示交叉熵损失函数;D()表示当前训练种群的判别器;S
e
,A
e
表示专家示教数据中抽取L数目的s
i
,a
i
向量;S
g
,A
g
表示经验缓存池中抽取L数目的o
i
,u
i
向量;0,1表示专家数据和经验缓存池数据的样本标签;通过loss_1,loss_2计算得到一个带有梯度信息的loss,并利用带有梯度信息的loss对判别器网络参数进行更新;步骤5:对生成器的参数进行更新,包括actor网络更新和critic网络更新两部分;先更新critic网络,按存储顺序从经验池中依次提取L条经验元组,网络更新公式为其中,Mean()表示求均值;分别表示按时间顺序存储的下一时刻奖励值和当前时刻奖励值;γ是一个折扣因子;均为当前时刻元组内的元素;利用公式得到带梯度信息的损失值loss_value_net来更新critic网络的参数;
然后更新actor网络参数,先计算每个经验元组...

【专利技术属性】
技术研发人员:彭星光刘硕王童豪宋保维潘光张福斌高剑李乐张立川
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1