提升智能体控制中选择可靠动作准确性的方法技术

技术编号：32551270 阅读：34 留言：0更新日期：2022-03-05 11:51

本发明专利技术公开了一种提升智能体控制中选择可靠动作准确性的方法，包括：步骤1，将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据，并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型；步骤2，智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计；步骤3，智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略；步骤4，智能体控制中采用优化后的策略进行行为的选择。能提高智能体用有模型强化学习方法的样本效率，进而提升学习的策略性能低，提高控制中选择可靠动作的准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
提升智能体控制中选择可靠动作准确性的方法

[0001]本专利技术涉及智能体控制领域，尤其涉及一种提升智能体控制中选择可靠动作准确性的方法。

技术介绍

[0002]强化学习在决策任务中取得了巨大成功，从玩电子游戏到在模拟器中控制机器人。然而，其中许多结果是通过无模型强化学习方法实现的，并且通常需要大量样本，这极大地阻碍了无模型强化学习方法在现实世界任务中的应用。
[0003]相比之下，有模型强化学习方法通过构建环境模型并生成虚构的交互，相比无模型强化学习方法具有更高的样本效率。因此，对于智能体学习而言，有模型强化学习方法是处理现实世界任务更有希望的方法，如：机器人控制、工业控制等。有模型强化学习方法的样本效率关键取决于有效地学习准确的模型，因为模型误差限制了学习策略的性能，造成模型偏差问题。具体来说，模型误差会误导智能体选择不可靠的动作——其长期收益在模型中很高，但在真实环境中却大概率偏低，从而降低智能体学习策略的性能，会使得智能体选择不可靠动作，降低完成相应任务目标的概率，如会降低机械臂抓取到物体的概率等，导致智能体无法完成相应任务目标。
[0004]然而，目前智能体用的有模型强化学习方法，由于会受到复杂和嘈杂环境等因素的影响，难以有效地学习准确模型，这阻碍了提高有模型强化学习方法的样本效率，进一步影响智能体学习策略的性能，导致智能体控制中选择可靠动作(可靠动作指能更高概率完成目标任务的动作)的准确性差。
[0005]有鉴于此，特提出本专利技术。

技术实现思路

[0006]本专...

【技术保护点】

【技术特征摘要】
1.一种提升智能体控制中选择可靠动作准确性的方法，其特征在于，用于采用有模型强化学习方法的智能体中，包括：步骤1，将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据，并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型；步骤2，所述智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计；步骤3，所述智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略；步骤4，所述智能体控制中采用优化后的策略进行行为的选择。2.根据权利要求1所述的提升智能体控制中选择可靠动作准确性的方法，所述方法的步骤1中，按以下方式从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型，包括：所述智能体通过预先部署的一组概率神经网络N从采集的真实环境数据中学习模拟真实环境动力学得出多个转移概率密度，以多个转移概率密度作为动力学模型集合M；所述动力学模型集合M中的每个动力学模型M
j
由m个不同概率神经网络得出的转移概率密度组成，m小于N。3.根据权利要求2所述的提升智能体控制中选择可靠动作准确性的方法，所述方法的步骤2中，所述智能体按以下方式基于学习得到的动力学模型学习评价打分网络的评价打分函数的多个估计，包括：所述智能体基于动力学模型集合M中的每个动力学模型M
j
均学习一个行为策略对应的打分评价网络，各个行为策略对应的打分评价网络用表示，该评价打分网络的训练目标值为：其中，j＝1,
…
,K,s
′
j
～P
j
(
·
|s,a),a
′
j
～π(
·
|s
′
j
)；上式中，r(s,a)表示智能体在状态s执行动作a的奖...

【专利技术属性】
技术研发人员：王杰，李厚强，王治海，周祺，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人