智能体的神经网络模型优化方法、装置、智能体及介质制造方法及图纸

技术编号：37744863 阅读：20 留言：0更新日期：2023-06-05 23:31

本申请公开了一种智能体的神经网络模型优化方法、装置、智能体及介质，该方法包括：任一智能体基于存储的神经网络模型获取当前时刻的自身变量信息和交互信息；任一智能体获取当前时刻自身与其他智能体的交互关系参数，该交互关系参数包括合作关系参数、独立关系参数和竞争关系参数；任一智能体根据存储的神经网络模型、交互关系参数、自身变量信息和交互信息确定当前时刻的目标损失函数，并基于目标损失函数和收敛条件对存储的神经网络模型参数进行优化。由于智能体以同时考虑多个智能体之间的合作、独立和竞争关系的方式对智能体存储的神经网络模型进行优化，这样可以实现智能体之间的高效交互，从而达到对多个智能体构成的系统整体优化的目的。系统整体优化的目的。系统整体优化的目的。

全部详细技术资料下载

【技术实现步骤摘要】
智能体的神经网络模型优化方法、装置、智能体及介质

[0001]本申请实施例涉及智能体学习
，尤其涉及一种智能体的神经网络模型优化方法、装置、智能体及介质。

技术介绍

[0002]智能体之间既有信息相互交流与协作，也有相互对抗与竞争，目前单智能体的强化学习方法可以直接推广到多智能体系统中，但是单智能体的强化学习方法无法解决多智能体之间的信息共享，以及合作与竞争的问题。传统场景下，大多数多智能体学习方法都侧重于学习智能体之间的协作，当多智能体数量增加时，通常通过近似总体或邻近智能体的平均影响来降低计算复杂度。但是，这些方法无法从整体上表示不同智能体构成的系统，并且在没有任何先验信息的情况下，很难揭示各智能体之间的关系。另外，现有的方法不能有效处理智能体数量动态变化的场景。

技术实现思路

[0003]本申请提供了一种智能体的神经网络模型优化方法、装置、智能体及介质，可以以同时考虑多个智能体之间的合作、独立和竞争关系的方式对智能体存储的神经网络模型进行优化，实现智能体之间的高效交互，达到对多个智能体构成的系统整体优化的目的，从而可以有效适应智能体数量动态变化的场景。
[0004]第一方面，本申请实施例提供了一种智能体的神经网络模型优化方法，应用于多个智能体交互的场景下，该方法包括：
[0005]任一智能体基于存储的神经网络模型获取当前时刻的自身变量信息和交互信息；
[0006]任一智能体基于神经网络模型获取当前时刻任一智能体与其他智能体的交互关系参数，其中，交互关系参数包括合作关...

【技术保护点】

【技术特征摘要】
1.一种智能体的神经网络模型优化方法，应用于多个智能体交互的场景下，其特征在于，包括：任一智能体基于存储的神经网络模型获取当前时刻的自身变量信息和交互信息；所述任一智能体基于所述神经网络模型获取当前时刻所述任一智能体与其他智能体的交互关系参数，其中，所述交互关系参数包括合作关系参数、独立关系参数和竞争关系参数；所述任一智能体根据所述存储的神经网络模型、所述交互关系参数、所述自身变量信息和交互信息确定当前时刻的目标损失函数；所述任一智能体基于所述目标损失函数和收敛条件对所述任一智能体存储的神经网络模型的参数进行优化。2.根据权利要求1所述的方法，其特征在于，所述交互信息包括所述任一智能体关于环境的观测信息和所述任一智能体与所述其他智能体的传输信息，所述传输信息包括所述任一智能体向所述其他智能体发送的传输信息，以及所述任一智能体接收的所述其他智能体发送的传输信息。3.根据权利要求1或2所述的方法，其特征在于，所述任一智能体基于所述神经网络模型获取当前时刻所述任一智能体与其他智能体的交互关系参数，包括：所述任一智能体获取上一时刻的关系图网络，所述上一时刻的关系图网络基于上一时刻所述任一智能体与所述其他智能体的交互关系参数生成；所述任一智能体根据所述神经网络模型中的关系推理网络对所述上一时刻的关系图网络进行处理，得到当前时刻的关系图网络；所述任一智能体根据所述当前时刻的关系图网络确定当前时刻所述任一智能体与所述其他智能体的交互关系参数；所述关系图网络的初始值为0。4.根据权利要求1或2所述的方法，其特征在于，所述任一智能体根据所述存储的神经网络模型、所述交互关系参数、所述自身变量信息和交互信息确定当前时刻的目标损失函数，包括：所述任一智能体根据所述存储的神经网络模型中的决策网络、所述交互关系参数、所述自身变量信息和交互信息，确定所述任一智能体当前时刻的动作；所述任一智能体基于所述交互关系参数获取所述其他智能体当前时刻的动作；所述任一智能体根据所述决策网络、所述任一智能体当前时刻的动作、所述其他智能体当前时刻的动作、所述交互关系参数、所述自身变量信息、所述交互信息，确定所述任一智能体当前时刻的个体损失函数；所述任一智能体根据所述交互关系参数确定所述任一智能体当前时刻的结构化损失函数；所述任一智能体根据所述个体损失函数和所述结构化损失函数确定当前时刻的目标损失函数。5.根据权利要求4所述的方法，其特征在于，所述任一智能体根据所述存储的神经网络模型中的决策网络、所述交互关系参数、所述自身变量信息和交互信息，确定所述任一智能体当前时刻的动作，包括：
所述任一智能体根据所述交互关系参数和所述交互信息包含的所述任一智能体接收的所述其他智能体发送的传输信息，确定所述任一智能体接收的所...

【专利技术属性】
技术研发人员：任亮亮，
申请(专利权)人：广州视源人工智能创新研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人