【技术实现步骤摘要】
一种策略模型训练方法、装置及设备
[0001]本专利技术实施例涉及人工智能领域,涉及一种策略模型训练的方法、装置及设备。
技术介绍
[0002]博弈学习是训练策略模型的常见机器学习方法。博弈学习的过程通常由至少两方智能体参与,双方在学习过程中始终保持对抗状态,并且智能体策略模型与环境实施交互,分别从环境中获取各自的态势和奖励,以使策略模型根据各自的态势以及奖励结果对各自的后续动作做出优选决策,从而不断优化更新策略模型。
[0003]通常,应用现阶段博弈学习方法得到的策略模型只适用于策略较为单一的博弈场景,例如现有技术专利中(CN111160565A、 CN112329348A以及CN112561032A)所提到的博弈场景,对于学习网络中存在多种两两相互克制关系的策略的场景,未进行有效学习,导致策略模型可以进化的程度上限相对较低,达不到预期的进化目标,从而难以适用于策略多样的博弈场景。
技术实现思路
[0004]本申请实施例提供了一种策略模型训练方法、装置及设备,以解决现有博弈学习方法中策略模型难以适用 ...
【技术保护点】
【技术特征摘要】
1.一种策略模型训练方法,其特征在于,所述方法包括:基于第一策略模型获取第一策略,基于第二策略模型获取第二策略,所述第一策略模型与所述第二策略模型分别对应相互对战的智能体;调用采用所述第一策略的第一智能体与采用所述第二策略的第二智能体对战,分别得到所述第一策略对应的第一对战结果以及所述第二策略对应的第二对战结果,所述第一智能体与所述第二智能体分别属于存在对战关系的智能体群;若所述第一对战结果大于预设阈值,增大所述第一策略在第一策略种群中被选取的可能性参数,以得到更新后的第一策略种群,若所述第一对战结果小于或者等于所述预设阈值,减小所述第一策略在第一策略种群中被选取的可能性参数,以得到更新后的策略种群,根据所述更新后的第一策略种群训练所述第一策略模型;若所述第二对战结果大于预设阈值,增大所述第二策略在第二策略种群中被选取的可能性参数,以得到更新后的第二策略种群,若所述第二对战结果小于或者等于所述预设阈值,减小所述第二策略在第二策略种群中被选取的可能性参数,以得到更新后的策略种群,根据所述更新后的第二策略种群训练所述第二策略模型。2.根据权利要求1所述的策略模型训练方法,其特征在于,在基于第一策略模型获取第一策略,基于第二策略模型获取第二策略之前,还包括:构建与所述第一策略对应的第一策略种群以及与第二策略对应的第二策略种群;建立所述第一智能体与所述第二智能体的对战学习空间。3.根据权利要求2所述的一种策略模型训练方法,其特征在于,所述建立所述第一智能体与所述第二智能体的对战学习空间,包括:部署所述第一智能体与所述第二智能体处于第一学习环境,使所述第一智能体与所述第二智能体在所述第一学习环境进行对战学习;获取所述第一智能体与所述第一学习环境的第一交互信息以及所述第二智能体与所述第一学习环境的第二交互信息;响应于所述第一交互信息以及所述第二交互信息,所述第一学习环境改变为第二学习环境,所述第二学习环境用作所述第一智能体与所述第二智能体学习环境,以得到所述对战学习空间。4.根据权利要求3所述的策略模型训练方法,其特征在于,所述第一交互信息包括以下至少一个:所述第一智能体在对战学习过程中对所述第一学习环境的第一影响结果,以及响应于所述第一影响结果所述第一学习环境对所述第一智能体产生的第一反馈结果;所述第二交互信息包括以下至少一个:所述第二智能体在所述对战学习过程中对所述第二学习环境的第二影响结果,以及响应于所述第二影响结果所述第二学习环境对所述第二智能体产生的第二反馈结果。5.根据权利要求1所述的策略模型训练方法,其特征在于:调用所述第一智能体与所述第二智能体对战,包括:调用至少一个所述第一智能体与至少一个所述第二智能体进行对战,任一所述第一智能体与至少一个所述第二智能体进行对战,任一所述第二智能体与至少一个所述第一智能体进行对战...
【专利技术属性】
技术研发人员:徐波,徐博,张鸿铭,王燕娜,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。