【技术实现步骤摘要】
基于强化学习的智能体决策神经网络模型设计方法
[0001]本专利技术涉及多智能体及群体智能
,尤其涉及一种基于强化学习的智能体决策神经网络模型设计方法
。
技术介绍
[0002]智能决策的主要任务包括在静态环境中的目标优化问题以及在动态环境中的行动控制问题,智能决策的输出可直接影响环境本身
。
本专利技术主要针对动态环境中的行动控制问题,序贯地做出一个个决策,并持续看到新的观测,直到任务结束
。
深度强化学习(
DRL
,
deep reinforcement learning
)是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习
。
深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题
。
从
2013
年
DQN
(深度
Q
网络,
deep Q network ...
【技术保护点】
【技术特征摘要】
1.
基于强化学习的智能体决策神经网络模型设计方法,其特征在于,包括:设计
Extractor
模块
、Encoder
模块和
Header
层模块,从输入至输出依次为
Extractor
模块
、Encoder
模块和
Header
层模块;所述
Extractor
模块,用于提取智能体从环境得来的原始观测信息;所述
Extractor
模块采用多层感知机的结构
、
卷积神经网络
、
多层感知机与长短记忆神经网络联合的结构或卷积神经网络与长短记忆神经网络联合的结构;所述
Encoder
模块,用于对提取的观测信息进行编码;所述
Encoder
模块采用
Transformer
中的编码器结构;所述
Header
层模块,所述
Header
层模块作为输出层,用于根据编码信息做出动作决策
。2.
根据权利要求1所述的基于强化学习的智能体决策神经网络模型设计方法,其特征在于:所述原始观测信息为观测向量
、
观测图像或时序信息;若所述智能体的原始观测信息为观测向量,则所述
Extractor
模块采用多层感知机的结构对观测向量进行信息提取;若所述智能体的原始观测信息为观测图像,则所述
Extractor
模块采用卷积神经网络对所述观测图像中的信息进行提取;若所述智能体的原始观测信息是时序信息,则所述
Extractor
模块在多层感知机或者卷积神经网络的基础上增加长短记忆神经网络进行时序信息的提取;若所述智能体为多个,所述
Extractor
模块还需要增加注意力机制,用于建立所述智能体之间的相对关系信息
。3.
根据权利要求2所述的基于强化学习的智能体决策神经网络模型设计方法,其特征在于:所述多层感知机的结构从输入到输出包括:(1)输入层:以全连接层作为输入层,节点个数为观测向量长度;(2)隐藏层:包括两层隐藏层及
LN
归一层;隐藏层为节点数为
128
全连接层,并采用
Relu
函数作为激活函数;(3)输出层:采用全连接层加
softmax
函数作为输出层,节点数
128。4.
根据权利要求3所述的基于强化学习的智能体决策神经网络模型设计方法,其特征在于:所述长短记忆神经网络的结构从输入到输出为单一时刻信息提取单元
、LSTM
单元以及门电路依次连接;所述单一时刻信息提取单元的网络结构取决于所述原始观测信息的类型,若所述原始观测信息为观测向量则采用多层感知机的结构,若所述原始观测信息为观测图像则采用卷积神经网络;所述单一时刻信息提取单元的输出作为所述
LSTM
单元的输入,所述
LSTM
单元残差链接至所述门电路;所述门电路用于为平衡时序信息与当前信息之间的耦合关系,输出结果长度为
128。5.
根据权利要求
2、3
或4所述的基于强化学习的智能体决策神经网络模型设计方法,其特征在于:所述注意力机制从输入到输出的网络结构为单个智能体信息提取单元
、
多头注意力单...
【专利技术属性】
技术研发人员:王烨,高远,李姜,郭立红,于洋,赵鑫宇,
申请(专利权)人:中国科学院长春光学精密机械与物理研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。