一种多智能体的动作决策方法、装置、设备及存储介质制造方法及图纸

技术编号:31665726 阅读:31 留言:0更新日期:2022-01-01 10:05
本申请提供一种多智能体的动作决策方法、装置、设备及存储介质,涉及人工智能技术领域,用于优化对多智能体的动作进行决策的过程。该方法包括:对多个节点的当前环境信息进行筛选,获得目标环境信息并发送给各节点;获取各节点的整合环境信息;一个节点的整合环境信息包括该节点基于接收的目标环境信息和历史信息且利用强化学习选取的待执行动作;历史信息包括该节点在历史时刻的节点类型及执行的动作,且是该节点从历史接收的目标环境信息中获得的;基于各节点的整合环境信息获取动作集合;从动作集合中选取部分节点的待执行动作,并根据选取的待执行动构建序列动作集,序列动作集中包括按照设定执行顺序排列后的选取的待执行动作。待执行动作。待执行动作。

【技术实现步骤摘要】
一种多智能体的动作决策方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种多智能体的动作决策方法、装置、设备及存储介质。

技术介绍

[0002]相关技术中,对多智能体组成的系统中多个智能体的动作决策时,大多数智能决策支持系统是基于专家系统的辅助决策进行的;如专家系统强调利用专家经验知识和推理方法,且其是针对专门领域问题的,所需的知识为某一专业领域的知识。但这些辅助决策方法如专家系统,均需要获取用于辅助决策的信息(如针对专门领域问题的专家经验知识和推理方法),存在信息资源分散、过分依赖领域专家经验、难以从海量、有噪音的、随机的数据中提取和挖掘潜在有用的信息、系统扩展性差、通用性不强等不足,即现有的辅助决策方法缺乏主动的学习机制,进而会增加智能决策支持系统的局限性,也会影响智能决策的结果的准确度。

技术实现思路

[0003]本申请实施例提供一种多智能体的动作决策方法、装置、设备及存储介质,用于优化对多智能体的动作进行决策的过程。
[0004]本申请第一方面,提供一种多智能体的动作决策方法,应用于服务器,包括:
[0005]对感知的多个节点的当前环境信息进行筛选,获得目标环境信息并发送给各节点,所述节点包括智能体或服务;
[0006]获取各节点的整合环境信息;其中,一个节点的整合环境信息包括所述一个节点基于接收的目标环境信息和历史信息,且利用强化学习选取的待执行动作;所述历史信息包括所述一个节点在历史时刻的节点类型及执行的动作,且所述历史信息是所述一个节点从历史接收的目标环境信息中获得的;
[0007]基于所述各节点的整合环境信息,获取所述多个节点对应的动作集合,所述动作集合包括按照执行时间排序后的所述各节点的待执行动作;
[0008]根据历史动作选择信息,从所述动作集合中选取部分节点的待执行动作,并根据选取的待执行动作构建序列动作集,所述序列动作集中包括按照设定执行顺序排列后的所述选取的待执行动作。
[0009]在一种可能的实现方式中,所述对感知的多个节点的当前环境信息进行筛选,获得目标环境信息并发送给各节点,包括:
[0010]利用注意力网络,对所述多个节点的当前环境信息进行状态转换,获得多个状态特征集合;
[0011]对各状态特征集合进行处理,获得所述各状态特征集合对应的注意力分布概率;
[0012]根据注意力分布概率的大小,从所述各状态特征集合对应的注意力分布概率中选取部分注意力分布概率;
[0013]利用选取的注意力分布概率对相应的状态特征集合进行加权处理,获得所述目标环境信息。
[0014]在一种可能的实现方式中,所述一个节点的整合环境信息是所述一个节点将自身的基本环境信息和所述一个节点之外的其它节点的基本环境信息进行整合处理得到的,其中每个节点的基本环境信息包括其当前接收的目标环境信息和历史接收的目标环境信息。
[0015]在一种可能的实现方式中,所述基于所述各节点的整合环境信息,获取所述多个节点对应的动作集合,包括:
[0016]基于所述各节点的整合环境信息的时间特征,利用循环神经网络对所述各节点的整合环境信息进行处理,获取所述各节点的历史整合环境信息和当前整合环境信息;
[0017]基于所述各节点的历史整合环境信息和当前整合环境信息,获取所述各节点的待执行动作;
[0018]将所述各节点的待执行动作按照执行时间排序,得到所述动作集合。
[0019]在一种可能的实现方式中,所述根据历史动作选择信息,从所述动作集合中选取部分节点的待执行动作,包括:
[0020]根据历史动作选择信息中的动作,确定动作集合中各节点的待执行动作的历史选择概率;
[0021]根据各节点的待执行动作的历史选择概率的大小,从所述动作集合中选取部分节点的待执行动作。
[0022]在一种可能的实现方式中,所述根据各节点的待执行动作的历史选择概率的大小,从所述动作集合中选取部分节点的待执行动作,包括:
[0023]将各节点的待执行动作的历史选择概率按照从大到小的顺序进行排序;
[0024]选取排序在指定序位的历史选择概率对应的节点的待执行动作。
[0025]在一种可能的实现方式中,所述从所述动作集合中选取部分节点的待执行动作之后,还包括:
[0026]对选取的各节点的待执行动作的可靠度进行验证,若验证失败,则随机从所述动作集合中选取部分节点的待执行动作。
[0027]在一种可能的实现方式中,所述历史时刻包括早于当前时刻且与当前时刻的时间间隔小于时间阈值的时刻;或
[0028]所述历史时刻包括早于当前时刻且距离当前时刻最近的时刻。
[0029]本申请第二方面,提供一种多智能体的动作决策装置,包括:
[0030]状态信息筛选单元,被配置为执行对感知的多个节点的当前环境信息进行筛选,获得目标环境信息并发送给各节点,所述节点包括智能体或服务;
[0031]整合环境信息获取单元,被配置为执行获取各节点的整合环境信息;其中,一个节点的整合环境信息包括所述一个节点基于接收的目标环境信息和历史信息,且利用强化学习选取的待执行动作;所述历史信息包括所述一个节点在历史时刻的节点类型及执行的动作,且所述历史信息是所述一个节点从历史接收的目标环境信息中获得的;
[0032]动作集合获取单元,被配置为执行基于所述各节点的整合环境信息,获取所述多个节点对应的动作集合,所述动作集合包括按照执行时间排序后的所述各节点的待执行动作;
[0033]决策单元,被配置为执行根据历史动作选择信息,从所述动作集合中选取部分节点的待执行动作,并根据选取的待执行动作构建序列动作集,所述序列动作集中包括按照设定执行顺序排列后的所述选取的待执行动作。
[0034]在一种可能的实现方式中,所述状态信息筛选单元具体被配置为执行:
[0035]利用注意力网络,对所述多个节点的当前环境信息进行状态转换,获得多个状态特征集合;
[0036]对各状态特征集合进行处理,获得所述各状态特征集合对应的注意力分布概率;
[0037]根据注意力分布概率的大小,从所述各状态特征集合对应的注意力分布概率中选取部分注意力分布概率;
[0038]利用选取的注意力分布概率对相应的状态特征集合进行加权处理,获得所述目标环境信息。
[0039]在一种可能的实现方式中,所述一个节点的整合环境信息是所述一个节点将自身的基本环境信息和所述一个节点之外的其它节点的基本环境信息进行整合处理得到的,其中每个节点的基本环境信息包括其当前接收的目标环境信息和历史接收的目标环境信息。
[0040]在一种可能的实现方式中,所述动作集合获取单元具体被配置为执行:
[0041]基于所述各节点的整合环境信息的时间特征,利用循环神经网络对所述各节点的整合环境信息进行处理,获取所述各节点的历史整合环境信息和当前整合环境信息;
[0042]基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体的动作决策方法,其特征在于,应用于服务器,包括:对感知的多个节点的当前环境信息进行筛选,获得目标环境信息并发送给各节点,所述节点包括智能体或服务;获取各节点的整合环境信息;其中,一个节点的整合环境信息包括所述一个节点基于接收的目标环境信息和历史信息,且利用强化学习选取的待执行动作;所述历史信息包括所述一个节点在历史时刻的节点类型及执行的动作,且所述历史信息是所述一个节点从历史接收的目标环境信息中获得的;基于所述各节点的整合环境信息,获取所述多个节点对应的动作集合,所述动作集合包括按照执行时间排序后的所述各节点的待执行动作;根据历史动作选择信息,从所述动作集合中选取部分节点的待执行动作,并根据选取的待执行动作构建序列动作集,所述序列动作集中包括按照设定执行顺序排列后的所述选取的待执行动作。2.如权利要求1所述的方法,其特征在于,所述对感知的多个节点的当前环境信息进行筛选,获得目标环境信息并发送给各节点,包括:利用注意力网络,对所述多个节点的当前环境信息进行状态转换,获得多个状态特征集合;对各状态特征集合进行处理,获得所述各状态特征集合对应的注意力分布概率;根据注意力分布概率的大小,从所述各状态特征集合对应的注意力分布概率中选取部分注意力分布概率;利用选取的注意力分布概率对相应的状态特征集合进行加权处理,获得所述目标环境信息。3.如权利要求1所述的方法,其特征在于,所述一个节点的整合环境信息是所述一个节点将自身的基本环境信息和所述一个节点之外的其它节点的基本环境信息进行整合处理得到的,其中每个节点的基本环境信息包括其当前接收的目标环境信息和历史接收的目标环境信息。4.如权利要求1所述的方法,其特征在于,所述基于所述各节点的整合环境信息,获取所述多个节点对应的动作集合,包括:基于所述各节点的整合环境信息的时间特征,利用循环神经网络对所述各节点的整合环境信息进行处理,获取所述各节点的历史整合环境信息和当前整合环境信息;基于所述各节点的历史整合环境信息和当前整合环境信息,获取所述各节点的待执行动作;将所述各节点的待执行动作按照执行时间排序,得到所述动作集合。5.如权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:司瑞彬顾杜娟杨传安王静平李和聪郭广宇徐澄
申请(专利权)人:绿盟科技集团股份有限公司北京神州绿盟科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1