提升智能体控制中选择可靠动作准确性的方法技术

技术编号:32551270 阅读:34 留言:0更新日期:2022-03-05 11:51
本发明专利技术公开了一种提升智能体控制中选择可靠动作准确性的方法,包括:步骤1,将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据,并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型;步骤2,智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计;步骤3,智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略;步骤4,智能体控制中采用优化后的策略进行行为的选择。能提高智能体用有模型强化学习方法的样本效率,进而提升学习的策略性能低,提高控制中选择可靠动作的准确性。准确性。准确性。

【技术实现步骤摘要】
提升智能体控制中选择可靠动作准确性的方法


[0001]本专利技术涉及智能体控制领域,尤其涉及一种提升智能体控制中选择可靠动作准确性的方法。

技术介绍

[0002]强化学习在决策任务中取得了巨大成功,从玩电子游戏到在模拟器中控制机器人。然而,其中许多结果是通过无模型强化学习方法实现的,并且通常需要大量样本,这极大地阻碍了无模型强化学习方法在现实世界任务中的应用。
[0003]相比之下,有模型强化学习方法通过构建环境模型并生成虚构的交互,相比无模型强化学习方法具有更高的样本效率。因此,对于智能体学习而言,有模型强化学习方法是处理现实世界任务更有希望的方法,如:机器人控制、工业控制等。有模型强化学习方法的样本效率关键取决于有效地学习准确的模型,因为模型误差限制了学习策略的性能,造成模型偏差问题。具体来说,模型误差会误导智能体选择不可靠的动作——其长期收益在模型中很高,但在真实环境中却大概率偏低,从而降低智能体学习策略的性能,会使得智能体选择不可靠动作,降低完成相应任务目标的概率,如会降低机械臂抓取到物体的概率等,导致智能体无法完成相应任务目标。
[0004]然而,目前智能体用的有模型强化学习方法,由于会受到复杂和嘈杂环境等因素的影响,难以有效地学习准确模型,这阻碍了提高有模型强化学习方法的样本效率,进一步影响智能体学习策略的性能,导致智能体控制中选择可靠动作(可靠动作指能更高概率完成目标任务的动作)的准确性差。
[0005]有鉴于此,特提出本专利技术。

技术实现思路

[0006]本专利技术的目的是提供了一种提升智能体控制中选择可靠动作准确性的方法,能提高智能体用有模型强化学习方法的样本效率,进而解决智能体在有模型方法的学习中,因样本效率低,导致学习的策略性能低,造成控制中选择可靠动作的准确性差的问题。
[0007]现有技术中存在的上述技术问题。
[0008]本专利技术的目的是通过以下技术方案实现的:
[0009]本专利技术实施方式提供一种提升智能体控制中选择可靠动作准确性的方法,用于采用有模型强化学习方法的智能体中,包括:
[0010]步骤1,将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据,并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型;
[0011]步骤2,所述智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计;
[0012]步骤3,所述智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均
值来优化行为策略网络的策略;
[0013]步骤4,所述智能体控制中采用优化后的策略进行行为的选择。
[0014]与现有技术相比,本专利技术所提供的提升智能体控制中选择可靠动作准确性的方法,其有益效果包括:
[0015]通过使智能体先根据待完成的预定目标任务从与环境交互的真实数据中通过概率数据网络学习得到多个动力学模型,再从多个动力学模型中学习评价打分网络的评价打分函数的多个估计,之后使用评价打分函数的多个估计中最小的k个估计的平均值来优化智能体的策略,由于是一种保守优化策略的方式,避免了受到复杂和嘈杂环境等因素的影响,使得智能体能有效地学习准确模型,提高有模型强化学习方法的样本效率,进一步提升了学习策略的性能,进而提高了智能体控制中利用学得策略选择可靠动作的准确性。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0017]图1为本专利技术实施例提供的提升智能体控制中选择可靠动作准确性的方法的流程图;
[0018]图2为本专利技术实施例提供的提升智能体控制中选择可靠动作准确性的方法的流程示意图,其中,(a)为控制三维蚂蚁仿真机器人向前奔跑示意图,(b)为控制二维半豹仿真机器人向前奔跑示意图,(c)为控制三维人形仿真机器人向前奔跑示意图,(d)为控制二维人形仿真机器人向前奔跑示意图,(e)为控制二维人形仿真机器人向前跳跃示意图,(f)为控制二维蛇形仿真机器人向前游动示意图;
[0019]图3为本专利技术实施例提供的提升智能体控制中选择可靠动作准确性的方法的流程示意图,其中,(a)为蜘蛛形仿真机器人的仿真控制对比结果示意图,(b)为人形仿真机器人的仿真控制对比结果示意图,(c)为双足形仿真机器人的仿真控制对比结果示意图,(d)为单足形仿真机器人的仿真控制对比结果示意图,(e)为猎豹形仿真机器人的仿真控制对比结果示意图,(f)为倒立杆的仿真控制对比结果示意图。
具体实施方式
[0020]下面结合本专利技术的具体内容,对本专利技术实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,这并不构成对本专利技术的限制。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0021]首先对本文中可能使用的术语进行如下说明:
[0022]术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
[0023]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部
件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0024]术语“由
……
组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
[0025]除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
[0026]当浓度、温度、压力、尺寸或者其它参数以数值范围形式表示时,该数值范围应被理解为具体公开了该数值范围内任何上限值、下限值、优选值的配对所形成的所有范围,而不论该范围是否被明确记载;例如,如果记载了数值范围“2~8”时,那么该数值范围应被解释为包括“2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提升智能体控制中选择可靠动作准确性的方法,其特征在于,用于采用有模型强化学习方法的智能体中,包括:步骤1,将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据,并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型;步骤2,所述智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计;步骤3,所述智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略;步骤4,所述智能体控制中采用优化后的策略进行行为的选择。2.根据权利要求1所述的提升智能体控制中选择可靠动作准确性的方法,所述方法的步骤1中,按以下方式从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型,包括:所述智能体通过预先部署的一组概率神经网络N从采集的真实环境数据中学习模拟真实环境动力学得出多个转移概率密度,以多个转移概率密度作为动力学模型集合M;所述动力学模型集合M中的每个动力学模型M
j
由m个不同概率神经网络得出的转移概率密度组成,m小于N。3.根据权利要求2所述的提升智能体控制中选择可靠动作准确性的方法,所述方法的步骤2中,所述智能体按以下方式基于学习得到的动力学模型学习评价打分网络的评价打分函数的多个估计,包括:所述智能体基于动力学模型集合M中的每个动力学模型M
j
均学习一个行为策略对应的打分评价网络,各个行为策略对应的打分评价网络用表示,该评价打分网络的训练目标值为:其中,j=1,

,K,s

j
~P
j
(
·
|s,a),a

j
~π(
·
|s

j
);上式中,r(s,a)表示智能体在状态s执行动作a的奖...

【专利技术属性】
技术研发人员:王杰李厚强王治海周祺
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1