基于动态噪声网络的深度强化学习探索方法及组件技术

技术编号:38993048 阅读:12 留言:0更新日期:2023-10-07 10:23
本发明专利技术涉及深度强化学习探索技术领域,提供一种基于动态噪声网络的深度强化学习探索方法及组件,该方法包括:初始化智能体深度强化学习模型的参数和仿真环境,元策略网络和元价值网络的最后一层均为噪声线性层;智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;根据数据收集列表更新智能体深度强化学习模型的参数;在数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。本发明专利技术在元策略网络和元价值网络中引入了噪声,使其生成更多样化的网络参数,提高智能体的行为多样性,从而有效提高智能体的探索效率。从而有效提高智能体的探索效率。从而有效提高智能体的探索效率。

【技术实现步骤摘要】
基于动态噪声网络的深度强化学习探索方法及组件


[0001]本专利技术涉及深度强化学习探索
,尤其涉及一种基于动态噪声网络的深度强化学习探索方法及组件。

技术介绍

[0002]随着深度强化学习技术的迅猛发展,其被广泛应用于人工智能、游戏竞技和自动驾驶等领域。探索问题是当代深度强化学习的一个关键挑战。其主要目的是防止智能体的策略过早地收敛到一个局部最优。传统探索方法通过引入额外的虚拟奖励信号,来引导智能体的探索行为。然而,传统方法的问题在于需要细致的选择权重,以平衡虚拟奖励信号和真实的环境奖励信号,不恰当的权重会使得虚拟奖励信号改变最优策略,导致智能体的探索行为受限。

技术实现思路

[0003]本专利技术提供一种基于动态噪声网络的深度强化学习探索方法及组件,用以解决现有技术中虚拟奖励信号的权重不恰当,导致智能体的探索行为受限缺陷,本专利技术在元策略网络和元价值网络中引入了噪声,使其生成更多样化的网络参数,提高智能体的行为多样性,从而有效提高智能体的探索效率。
[0004]本专利技术提供一种基于动态噪声网络的深度强化学习探索方法,包括:初始化智能体深度强化学习模型的参数和仿真环境,所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;所述元策略网络和所述元价值网络的最后一层均为噪声线性层;所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;根据所述数据收集列表更新所述智能体深度强化学习模型的参数;在所述数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
[0005]根据本专利技术提供的一种基于动态噪声网络的深度强化学习探索方法,所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数之后,还包括:在所述数据收集列表收集的数据量不满足所述第一预设数据阈值时,清空数据收集列表,保存所述智能体深度强化学习模型的参数,并执行所述智能体深度强化学习模型与仿真环境交互训练的步骤。
[0006]根据本专利技术提供的一种基于动态噪声网络的深度强化学习探索方法,所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表,包括:所述元策略网络以当前环境的状态数据为输入,输出所述智能体的策略网络的最后一层的参数;所述智能体的策略网络以当前环境的状态数据为输入,并根据所述智能体的策略网络的最后一层的参数,输出动作;所述元价值网络以当前环境的状态数据为输入,输出所述智能体的价值网络的最后一层的参数;所述智能体的价值网络以当前环境的状态数据为输入,并根据所述智能体的价值网络的最后一层的参数,输出价值;所述仿真环境以当前环境
的状态数据、所述动作和所述价值为输入,输出下一时刻的状态、智能体获得的奖励和终止标识符,以获取交互训练的五元组;在所述仿真环境的状态数据满足第二预设数据阈值时,将所述交互训练的五元组存入数据收集列表。
[0007]根据本专利技术提供的一种基于动态噪声网络的深度强化学习探索方法,所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入,输出下一时刻的状态、智能体获得的奖励和终止标识符之后,还包括:在所述仿真环境的状态数据不满足第二预设数据阈值时,执行所述元策略网络以当前环境的状态数据为输入,输出所述智能体的策略网络的最后一层的参数的步骤。
[0008]根据本专利技术提供的一种基于动态噪声网络的深度强化学习探索方法,所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数,包括:根据所述交互训练的五元组,基于actor

critic算法对所述智能体的策略网络和所述智能体的价值网络进行更新;根据所述交互训练的五元组,采用策略梯度对所述元策略网络进行更新;根据所述交互训练的五元组,采用价值网络损失函数对所述元价值网络进行更新;所述策略梯度为:;所述价值网络损失函数为:;其中,,为对应神经网络参数,为策略梯度,为状态的估计值,为状态的估计值,为状态选择动作的概率,为训练数据的大小;为状态的智能体获得的奖励。
[0009]根据本专利技术提供的一种基于动态噪声网络的深度强化学习探索方法,所述噪声线性层为:;其中,、、和是可学习的参数,和是噪声随机变量。
[0010]本专利技术还提供一种基于动态噪声网络的深度强化学习探索系统,包括:初始化模块,用于初始化智能体深度强化学习模型的参数和仿真环境,所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;所述元策略网络和所述元价值网络的最后一层均为噪声线性层;交互训练模块,用于所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;数据更新模块,用于根据所述数据收集列表更新所述智能体深度强化学习模型的参数;迭代模块,用于在所述数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
[0011]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于动态噪声网络的深度强化学习探索方法。
[0012]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于动态噪声网络的深度强化学习探索方
法。
[0013]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于动态噪声网络的深度强化学习探索方法。
[0014]本专利技术提供的一种基于动态噪声网络的深度强化学习探索方法及组件,该方法包括:初始化智能体深度强化学习模型的参数和仿真环境,智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;所述元策略网络和所述元价值网络的最后一层均为噪声线性层;智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;根据数据收集列表更新智能体深度强化学习模型的参数;在数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。本专利技术在元策略网络和元价值网络中引入了噪声,使其生成更多样化的网络参数,提高智能体的行为多样性,从而有效提高智能体的探索效率。
附图说明
[0015]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本专利技术提供的一种基于动态噪声网络的深度强化学习探索方法的流程示意图;图2是本专利技术提供的一种基于动态噪声网络的深度强化学习探索方法的原理示意图;图3是本专利技术提供的一种基于动态噪声网络的深度强化学习探索方法的性能测试图;图4是本专利技术提供的一种基于动态噪声网络的深度强化学习探索系统的结构示意图;图5是本专利技术提供的电子设备的结构示意图。
具体实施方式
...

【技术保护点】

【技术特征摘要】
1.一种基于动态噪声网络的深度强化学习探索方法,其特征在于,包括:初始化智能体深度强化学习模型的参数和仿真环境,所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;所述元策略网络和所述元价值网络的最后一层均为噪声线性层;所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;根据所述数据收集列表更新所述智能体深度强化学习模型的参数;在所述数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。2.根据权利要求1所述的基于动态噪声网络的深度强化学习探索方法,其特征在于,所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数之后,还包括:在所述数据收集列表收集的数据量不满足所述第一预设数据阈值时,清空数据收集列表,保存所述智能体深度强化学习模型的参数,并执行所述智能体深度强化学习模型与仿真环境交互训练的步骤。3.根据权利要求1所述的基于动态噪声网络的深度强化学习探索方法,其特征在于,所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表,包括:所述元策略网络以当前环境的状态数据为输入,输出所述智能体的策略网络的最后一层的参数;所述智能体的策略网络以当前环境的状态数据为输入,并根据所述智能体的策略网络的最后一层的参数,输出动作;所述元价值网络以当前环境的状态数据为输入,输出所述智能体的价值网络的最后一层的参数;所述智能体的价值网络以当前环境的状态数据为输入,并根据所述智能体的价值网络的最后一层的参数,输出价值;所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入,输出下一时刻的状态、智能体获得的奖励和终止标识符,以获取交互训练的五元组;在所述仿真环境的状态数据满足第二预设数据阈值时,将所述交互训练的五元组存入数据收集列表。4.根据权利要求3所述的基于动态噪声网络的深度强化学习探索方法,其特征在于,所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入,输出下一时刻的状态、智能体获得的奖励和终止标识符之后,还包括:在所述仿真环境的状态数据不满足第二预设数据阈值时,执行所述元策略网络以当前环境的状态数据为输入,输出所述智能体的策...

【专利技术属性】
技术研发人员:路圣汉
申请(专利权)人:北京汉勃科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1