System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及强化学习,特别是涉及一种基于oar模型与强化学习的辅助决策方法和装置。
技术介绍
1、强化学习是近年来得到广泛应用的一类深度学习应用,其典型的应用场景是解决决策问题。强化学习的训练范式与监督学习不同,强化学习不需要使用带有标签的数据,但其和完全的无监督学习也不同,强化学习需要环境给予最低限度的必要反馈用以判断策略的好坏,但这个反馈比起监督学习要简单和易获取得多。
2、强化学习中进行学习、更新、迭代并做出决策动作的主体可以称之为代理。在单代理强化学习任务下,代理只用考虑环境的影响,而环境作为一个相对固定的条件,只要代理的动作分布稳定,环境给出的状态观测、奖励值等反馈信息的分布也是稳定的,代理相对容易到达稳定的收敛状态。
3、多代理强化学习问题除了在数学模型上与单代理问题具有不同的形式,在实践上也具有更高的训练难度,其中最大的一个挑战就是多代理带来的环境不稳定问题。在多代理强化学习任务下,从每一个代理的视角出发,“环境”不只包单代理任务中的狭义客观环境,还包括其他代理,在其他任一代理的动作分布不稳定的情况下,代理所接受到的反馈信息的分布也不稳定,这就导致代理不容易判断当前局面是好还是差,进而导致难以根据环境判断策略的好坏。
技术实现思路
1、鉴于上述问题,本公开实施例提供了一种基于oar模型与强化学习的辅助决策方法和装置,以便克服上述问题或者至少部分地解决上述问题。
2、本公开实施例的第一方面,提供了一种基于oar模型与强化学习的辅助决策方
3、获取每个所述代理观测到的各个目标的属性集合,所述目标包括所述代理;
4、对每个所述代理观测到的所述各个目标的属性集合进行图推理计算,得到每个所述代理的属性集合矩阵;
5、获取所述各个目标之间的关系,根据所述各个目标之间的关系,得到关系邻接矩阵;
6、将每个所述代理的属性集合矩阵和所述关系邻接矩阵进行推理计算,得到融合了全图信息的目标属性矩阵;
7、从环境背景中提取背景特征,将所述背景特征附加到所述目标属性矩阵,得到每个所述代理在每一时刻观测到的oar全局特征;
8、利用所述循环神经网络对所述oar全局特征进行处理,得到融合了历史信息的目标oar全局特征;
9、将每个所述代理对应的所述目标oar全局特征输入所述代理对应的动作网络,得到每个所述代理的动作概率分布;
10、根据每个所述代理的动作概率分布,确定所述代理的动作。
11、可选地,所述获取每个所述代理观测到的各个目标的属性集合,包括:
12、获取每个所述代理观测到的所述各个目标的动态属性;
13、获取所述各个目标的静态属性的向量表示;
14、将每个所述代理观测到的所述各个目标的动态属性,映射到所述静态属性的向量表示所在的向量空间,得到每个所述代理观测到的所述各个目标的动态属性的向量表示;
15、将所述各个目标的静态属性的向量表示和每个所述代理观测到的所述各个目标的动态属性的向量表示进行拼接,得到每个所述代理观测到的所述各个目标的属性集合。
16、可选地,所述目标还包括非代理;所述获取所述各个目标之间的关系,包括:
17、获取各个所述非代理指向所述代理的第一关系,以及各个所述代理指向其他所述代理的第二关系;
18、计算所述第一关系和所述第二关系各自的距离,并根据所述第一关系和所述第二关系各自的距离,对多个所述第一关系和所述第二关系进行筛选,得到所述各个目标之间的关系。
19、可选地,所述将所述背景特征附加到所述目标属性矩阵,得到每个所述代理在每一时刻观测到的oar全局特征,包括:
20、从所述目标属性矩阵中,取出每个所述代理观测到的特征;
21、将每个所述代理观测到的特征与所述背景特征进行拼接,得到每个所述代理在每一时刻观测到的oar全局特征。
22、可选地,在所述得到每个所述代理在每一时刻观测到的oar全局特征之后,所述方法还包括:
23、将每个所述代理在每一时刻观测到的oar全局特征输入所述代理对应的价值网络,得到每个所述代理的观测特征;
24、利用第二循环神经网络,对每个所述代理的观测特征进行特征提取,得到每个所述代理的环境rnn特征;
25、根据每个所述代理在每一时刻观测到的oar全局特征,预测每个所述代理对应的环境价值,所述环境价值用于确定奖励底线值,所述奖励底线值用于对所述策略网络进行强化学习。
26、可选地,所述方法还包括:
27、针对每个所述代理,获取所述代理在多步计算中对应的环境价值;
28、根据所述代理在所述多步计算中对应的环境价值,得到标准化的价值估计值;
29、采用泛化优势估计方法对所述标准化的价值估计值进行计算,得到每个所述代理对应的奖励底线值。
30、本公开实施例的第二方面,提供了一种基于oar模型与强化学习的辅助决策装置,应用于策略网络,所述策略网络包括循环神经网络和每类代理对应的动作网络,所述策略网络是进行强化学习得到的;所述装置包括:
31、属性获取模块,用于获取每个所述代理观测到的各个目标的属性集合,所述目标包括所述代理;
32、第一计算模块,用于对每个所述代理观测到的所述各个目标的属性集合进行图推理计算,得到每个所述代理的属性集合矩阵;
33、关系获取模块,用于获取所述各个目标之间的关系,根据所述各个目标之间的关系,得到关系邻接矩阵;
34、第二计算模块,用于将每个所述代理的属性集合矩阵和所述关系邻接矩阵进行推理计算,得到融合了全图信息的目标属性矩阵;
35、附加模块,用于从环境背景中提取背景特征,将所述背景特征附加到所述目标属性矩阵,得到每个所述代理在每一时刻观测到的oar全局特征;
36、处理模块,用于利用所述循环神经网络对所述oar全局特征进行处理,得到每个所述代理对应的融合了历史信息的目标oar全局特征;
37、输入模块,用于将每个所述代理对应的所述目标oar全局特征输入所述代理对应的动作网络,得到每个所述代理的动作概率分布;
38、动作确定模块,用于根据每个所述代理的动作概率分布,确定所述代理的动作。
39、可选地,所述属性获取模块具体用于执行:
40、获取每个所述代理观测到的所述各个目标的动态属性;
41、获取所述各个目标的静态属性的向量表示;
42、将每个所述代理观测到的所述各个目标的动态属性,映射到所述静态属性的向量表示所在的向量空间,得到每个所述代理观测到的所述各个目标的动态属性的向量表示;
43、将所述各个目标的静态本文档来自技高网...
【技术保护点】
1.一种基于OAR模型与强化学习的辅助决策方法,其特征在于,应用于策略网络,所述策略网络包括循环神经网络和每类代理对应的动作网络,所述策略网络是进行强化学习得到的;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取每个所述代理观测到的各个目标的属性集合,包括:
3.根据权利要求1所述的方法,其特征在于,所述目标还包括非代理;所述获取所述各个目标之间的关系,包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述背景特征附加到所述目标属性矩阵,得到每个所述代理在每一时刻观测到的OAR全局特征,包括:
5.根据权利要求1所述的方法,其特征在于,在所述得到每个所述代理在每一时刻观测到的OAR全局特征之后,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.一种基于OAR模型与强化学习的辅助决策装置,其特征在于,应用于策略网络,所述策略网络包括循环神经网络和每类代理对应的动作网络,所述策略网络是进行强化学习得到的;所述装置包括:
8.根据权利要求7所述的装
9.根据权利要求7所述的装置,其特征在于,所述目标还包括非代理;所述关系获取模块具体用于执行:
10.根据权利要求7所述的装置,其特征在于,所述附加模块具体用于执行:
...【技术特征摘要】
1.一种基于oar模型与强化学习的辅助决策方法,其特征在于,应用于策略网络,所述策略网络包括循环神经网络和每类代理对应的动作网络,所述策略网络是进行强化学习得到的;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取每个所述代理观测到的各个目标的属性集合,包括:
3.根据权利要求1所述的方法,其特征在于,所述目标还包括非代理;所述获取所述各个目标之间的关系,包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述背景特征附加到所述目标属性矩阵,得到每个所述代理在每一时刻观测到的oar全局特征,包括:
5.根据权利要求1所述的方法,其特征在于,在...
【专利技术属性】
技术研发人员:段一平,陶晓明,祖曰然,崔洲涓,李明哲,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。