智能体的神经网络模型优化方法、装置、智能体及介质制造方法及图纸

技术编号:37744863 阅读:20 留言:0更新日期:2023-06-05 23:31
本申请公开了一种智能体的神经网络模型优化方法、装置、智能体及介质,该方法包括:任一智能体基于存储的神经网络模型获取当前时刻的自身变量信息和交互信息;任一智能体获取当前时刻自身与其他智能体的交互关系参数,该交互关系参数包括合作关系参数、独立关系参数和竞争关系参数;任一智能体根据存储的神经网络模型、交互关系参数、自身变量信息和交互信息确定当前时刻的目标损失函数,并基于目标损失函数和收敛条件对存储的神经网络模型参数进行优化。由于智能体以同时考虑多个智能体之间的合作、独立和竞争关系的方式对智能体存储的神经网络模型进行优化,这样可以实现智能体之间的高效交互,从而达到对多个智能体构成的系统整体优化的目的。系统整体优化的目的。系统整体优化的目的。

【技术实现步骤摘要】
智能体的神经网络模型优化方法、装置、智能体及介质


[0001]本申请实施例涉及智能体学习
,尤其涉及一种智能体的神经网络模型优化方法、装置、智能体及介质。

技术介绍

[0002]智能体之间既有信息相互交流与协作,也有相互对抗与竞争,目前单智能体的强化学习方法可以直接推广到多智能体系统中,但是单智能体的强化学习方法无法解决多智能体之间的信息共享,以及合作与竞争的问题。传统场景下,大多数多智能体学习方法都侧重于学习智能体之间的协作,当多智能体数量增加时,通常通过近似总体或邻近智能体的平均影响来降低计算复杂度。但是,这些方法无法从整体上表示不同智能体构成的系统,并且在没有任何先验信息的情况下,很难揭示各智能体之间的关系。另外,现有的方法不能有效处理智能体数量动态变化的场景。

技术实现思路

[0003]本申请提供了一种智能体的神经网络模型优化方法、装置、智能体及介质,可以以同时考虑多个智能体之间的合作、独立和竞争关系的方式对智能体存储的神经网络模型进行优化,实现智能体之间的高效交互,达到对多个智能体构成的系统整体优化的目的,从而可以有效适应智能体数量动态变化的场景。
[0004]第一方面,本申请实施例提供了一种智能体的神经网络模型优化方法,应用于多个智能体交互的场景下,该方法包括:
[0005]任一智能体基于存储的神经网络模型获取当前时刻的自身变量信息和交互信息;
[0006]任一智能体基于神经网络模型获取当前时刻任一智能体与其他智能体的交互关系参数,其中,交互关系参数包括合作关系参数、独立关系参数和竞争关系参数;
[0007]任一智能体根据存储的神经网络模型、交互关系参数、自身变量信息和交互信息确定当前时刻的目标损失函数;
[0008]任一智能体基于目标损失函数和收敛条件对任一智能体存储的神经网络模型的参数进行优化。
[0009]第二方面,本申请实施例还提供了一种智能体的神经网络模型优化装置,应用于多个智能体交互场景下的任一智能体中,该装置包括:
[0010]获取模块,用于基于装置存储的神经网络模型获取当前时刻的自身变量信息和交互信息;
[0011]获取模块,还用于基于神经网络模型获取当前时刻任一智能体与其他智能体的交互关系参数,其中,交互关系参数包括合作关系参数、独立关系参数和竞争关系参数;
[0012]确定模块,用于根据装置存储的神经网络模型、交互关系参数、自身变量信息和交互信息确定当前时刻的目标损失函数;
[0013]优化模块,用于基于目标损失函数和收敛条件对装置存储的神经网络模型的参数
进行优化。
[0014]第三方面,本申请实施例还提供了一种智能体,该智能体包括:存储器、处理器,当存储器存储有计算机程序,处理器执行计算机程序时,实现如本申请实施例提供的一种智能体的神经网络模型优化方法。
[0015]第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如本申请实施例提供的一种智能体的神经网络模型优化方法。
[0016]本申请提供了一种智能体的神经网络模型优化方法、装置、智能体及介质,应用于多个智能体交互的场景下,该方法包括:任一智能体基于存储的神经网络模型获取当前时刻的自身变量信息和交互信息;任一智能体获取当前时刻任一智能体与其他智能体的交互关系参数,其中,交互关系参数包括合作关系参数、独立关系参数和竞争关系参数;任一智能体根据存储的神经网络模型、交互关系参数、自身变量信息和交互信息确定当前时刻的目标损失函数;任一智能体基于目标损失函数和收敛条件对任一智能体存储的神经网络模型的参数进行优化。在上述方案中,智能体以同时考虑多个智能体之间的合作、独立和竞争关系的方式对智能体存储的神经网络模型进行优化,实现智能体之间的高效交互,达到对多个智能体构成的系统整体优化的目的,从而可以有效适应智能体数量动态变化的场景。
附图说明
[0017]图1是本申请实施例提供的一种智能体的神经网络模型优化方法的流程图;
[0018]图2是本申请实施例提供的多智能体交互示意图;
[0019]图3是本申请实施例提供的多智能体交互关系示意图;
[0020]图4是本申请实施例提供的一种确定任一智能体当前时刻的动作的方法流程图;
[0021]图5是本申请实施例提供的确定任一智能体当前时刻的个体损失函数的方法流程图;
[0022]图6是本申请实施例提供的一种智能体的神经网络模型优化装置的结构示意图;
[0023]图7是本申请实施例提供的一种智能体的结构示意图。
具体实施方式
[0024]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
[0025]另外,在本申请实施例中,“可选地”或者“示例性地”等词用于表示作例子、例证或说明。本申请实施例中被描述为“可选地”或者“示例性地”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“可选地”或者“示例性地”等词旨在以具体方式呈现相关概念。
[0026]图1为本申请实施例提供的一种智能体的神经网络模型优化方法的流程图,该方法可以应用于多个智能体交互的场景下,以同时考虑多个智能体之间的合作、独立和竞争关系的方式对智能体存储的神经网络模型进行优化,实现智能体之间的高效交互,达到对多个智能体构成的系统整体优化的目的,从而有效适应智能体数量动态变化的场景。如图1
所示,该方法可以包括但不限于以下步骤:
[0027]S101、任一智能体基于存储的神经网络模型获取当前时刻的自身变量信息和交互信息。
[0028]本申请实施例中的智能体可以理解为工业场景下的清洁机器人、军事领域中的作战机器人或者游戏场景下的智能活动对象。该智能体的运动状态或者活动方式可以随着时间推移在场景中发生变化。进一步地,在智能体不断的运动过程中,其可以基于自身存储的神经网络模型不断与外界进行交互,获取当前场景下的各类信息。如图2所示,假设在某一个时刻,智能体A3可以同时与智能体A2和智能体A4进行交互,但在下一时刻,随着智能体在当前场景下的运动,其与智能体A2之间的交互方式发生变化,例如,与智能体A2不再交互,两者彼此保持独立,仅保留与智能体A4之间的交互。
[0029]由于本申请实施例提供的方案可以同时应用于多个智能体交互的场景下,那么以多个智能体中的任意一个智能体为例,该任一智能体的交互信息可以包括其与当前场景中除自身之外的其他一个或多个智能体之间的传输信息,该传输信息进一步还可以包括任一智能体向其他智能体发送的传输信息,以及任一智能体接收的其他智能体发送的传输信息。进一步地,该任一智能体的交互信息还可以包括其与环境的观测信息,例如,通过神经网络模型与环境交互,获得的关于环境的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能体的神经网络模型优化方法,应用于多个智能体交互的场景下,其特征在于,包括:任一智能体基于存储的神经网络模型获取当前时刻的自身变量信息和交互信息;所述任一智能体基于所述神经网络模型获取当前时刻所述任一智能体与其他智能体的交互关系参数,其中,所述交互关系参数包括合作关系参数、独立关系参数和竞争关系参数;所述任一智能体根据所述存储的神经网络模型、所述交互关系参数、所述自身变量信息和交互信息确定当前时刻的目标损失函数;所述任一智能体基于所述目标损失函数和收敛条件对所述任一智能体存储的神经网络模型的参数进行优化。2.根据权利要求1所述的方法,其特征在于,所述交互信息包括所述任一智能体关于环境的观测信息和所述任一智能体与所述其他智能体的传输信息,所述传输信息包括所述任一智能体向所述其他智能体发送的传输信息,以及所述任一智能体接收的所述其他智能体发送的传输信息。3.根据权利要求1或2所述的方法,其特征在于,所述任一智能体基于所述神经网络模型获取当前时刻所述任一智能体与其他智能体的交互关系参数,包括:所述任一智能体获取上一时刻的关系图网络,所述上一时刻的关系图网络基于上一时刻所述任一智能体与所述其他智能体的交互关系参数生成;所述任一智能体根据所述神经网络模型中的关系推理网络对所述上一时刻的关系图网络进行处理,得到当前时刻的关系图网络;所述任一智能体根据所述当前时刻的关系图网络确定当前时刻所述任一智能体与所述其他智能体的交互关系参数;所述关系图网络的初始值为0。4.根据权利要求1或2所述的方法,其特征在于,所述任一智能体根据所述存储的神经网络模型、所述交互关系参数、所述自身变量信息和交互信息确定当前时刻的目标损失函数,包括:所述任一智能体根据所述存储的神经网络模型中的决策网络、所述交互关系参数、所述自身变量信息和交互信息,确定所述任一智能体当前时刻的动作;所述任一智能体基于所述交互关系参数获取所述其他智能体当前时刻的动作;所述任一智能体根据所述决策网络、所述任一智能体当前时刻的动作、所述其他智能体当前时刻的动作、所述交互关系参数、所述自身变量信息、所述交互信息,确定所述任一智能体当前时刻的个体损失函数;所述任一智能体根据所述交互关系参数确定所述任一智能体当前时刻的结构化损失函数;所述任一智能体根据所述个体损失函数和所述结构化损失函数确定当前时刻的目标损失函数。5.根据权利要求4所述的方法,其特征在于,所述任一智能体根据所述存储的神经网络模型中的决策网络、所述交互关系参数、所述自身变量信息和交互信息,确定所述任一智能体当前时刻的动作,包括:
所述任一智能体根据所述交互关系参数和所述交互信息包含的所述任一智能体接收的所述其他智能体发送的传输信息,确定所述任一智能体接收的所...

【专利技术属性】
技术研发人员:任亮亮
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1