【技术实现步骤摘要】
一种多代理合作场景下的通信协议学习和迁移的方法
本专利技术属于人工智能自动化领域,特别地涉及一种多代理合作情景下的通信协议学习和迁移的方法。
技术介绍
现代人工智能自动化领域使用强化学习来训练代理执行任务是一个常见的解决方案,其中,许多场景依赖多个代理进行合作来达成共同的目标。在多代理合作体系中,常见的一种方法就是使用代理间通信来协调动作,进行合作。现有的主流通信协作方法有:(1)采用固定的通信协议。这种方法需要领域专家对相关场景进行通信协议的设计,无法适应多种场景;(2)采用机器学习技术来自动学习连续的通信协议。这种方法常见于各类多代理通信系统中,其中,通信协议是作为通信通道出现的,且其训练是与代理的策略共同进行的。对于所述方法(2),学习到的通信协议与动作执行策略具有强耦合性,在面对同类型的不同目标任务场景时,基本不具备可复用性。因此,在面对新的任务环境时,需要重新学习通信协议,提高了学习成本。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种多代理合作情景下的通信协议学习和迁移的方 ...
【技术保护点】
1.一种多代理合作情景下的通信协议学习和迁移的方法,其特征在于,包括:/n在多代理合作通信系统中引入信道代理来自动学习通信协议,区别于用于执行动作的执行代理;/n使用所述信道代理来自动学习通信协议,所述信道代理接收执行代理发来的特征向量,按照通信协议生成消息向量分发给执行代理;/n执行代理和信道代理的工作流程具体为:每个执行代理独立进行观测,并通过编码器将所观测的局部状态进行编码,生成对应的特征向量并发送给所述信道代理,所述信道代理接收特征向量,使用所述通信协议生成消息向量并分发给执行代理;所述执行代理接收到所述消息向量,与所述特征向量一起输入自己的策略网络,所述策略网络输 ...
【技术特征摘要】
1.一种多代理合作情景下的通信协议学习和迁移的方法,其特征在于,包括:
在多代理合作通信系统中引入信道代理来自动学习通信协议,区别于用于执行动作的执行代理;
使用所述信道代理来自动学习通信协议,所述信道代理接收执行代理发来的特征向量,按照通信协议生成消息向量分发给执行代理;
执行代理和信道代理的工作流程具体为:每个执行代理独立进行观测,并通过编码器将所观测的局部状态进行编码,生成对应的特征向量并发送给所述信道代理,所述信道代理接收特征向量,使用所述通信协议生成消息向量并分发给执行代理;所述执行代理接收到所述消息向量,与所述特征向量一起输入自己的策略网络,所述策略网络输出动作向量,与环境进行交互;使用深度确定性策略梯度算法分别对所述执行代理和所述信道代理的相关网络参数进行调整;
从源任务迁移到目标任务时,保留源任务上学习到的通信协议网络参数,并限制目标任务学习时的通信协议网络参数更新率。
2.如...
【专利技术属性】
技术研发人员:谭哲越,尹建伟,尚永衡,张鹿鸣,李莹,邓水光,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。