基于自主决策脉冲神经网络的响应动作确定方法及系统技术方案

技术编号:21433614 阅读:31 留言:0更新日期:2019-06-22 12:20
本发明专利技术提出了一种基于自主决策脉冲神经网络的响应动作确定方法及系统,并应用在无人机自主飞过窗任务中。所述确定方法包括:获取环境的状态信息;对所述环境的状态信息进行预处理,得到对应的状态类别;基于运行脉冲神经网络,根据所述状态类别,确定响应动作,可准确得到决策策略;从而使得受脑启发的自主决策脉冲神经网络符合生物依据,更具有可解释性。

【技术实现步骤摘要】
基于自主决策脉冲神经网络的响应动作确定方法及系统本申请要求于2018年11月12日提交中国专利局、申请号为201811341954.3、专利技术名称为“一种受脑启发的自主决策脉冲神经网络模型”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本专利技术涉及计算神经科学
,具体涉及一种基于自主决策脉冲神经网络的响应动作确定方法及系统。
技术介绍
自主决策能力是动物在自然界生存的必备技能,动物能够在与环境交互过程中快速地学习到正确的策略来获得更多的奖赏。智能系统也需要具备在线自主学习的能力,然而目前的自主学习方法大多需要大样本训练且收敛速度缓慢,借鉴大脑自主学习机制来实现类生物智能的自主学习能力是非常重要的。哺乳动物脑的自主决策是一个多脑区协同的过程,脑区之间相互协同又各司其职,共同完成自主性决策过程。已有的自主决策模型主要包括以下几个方面:1、传统强化学习算法包括TD(temporaldifference)learning、Q-learning、Actor-Critic算法等,擅长解决简单的强化学习问题,需要事先设定离散的状态、动作空间以及奖赏信息,状态-动作-奖赏三元组必须是少量离散的。2、深度强化学习算法包括以deepQ-network(DQN)为代表的模型,组合深度神经网络和Q-learning算法,基于梯度下降方法来优化神经网络,其中深度神经网络用来抽象表达高维输入信息,而不需要进行状态的划分。深度强化学习适用于具有大量数据信息的情况,而且计算会比较耗时。3、生物启发自主决策算法从不同角度借鉴了大脑自主学习的机制,例如将基底神经节的功能与Actor-Critic算法进行对比并优化。建模基底神经节的神经环路以及学习机制,但目前生物启发的方法还不够完善,缺少了部分皮上脑区以及基底神经节中的子脑区;在模型构建和学习过程中,没有使用脉冲神经网络;在应用验证上,没有在智能系统上验证自主决策的能力,使得响应动作的确定不够智能和准确。
技术实现思路
为了解决现有技术中的上述问题,即为了提高响应动作的确定智能性和准确性,本专利技术提供了一种基于自主决策脉冲神经网络的响应动作确定方法及系统。为解决上述技术问题,本专利技术提供了如下方案:一种基于自主决策脉冲神经网络的响应动作确定方法,所述确定方法包括:获取环境的状态信息;对所述环境的状态信息进行预处理,得到对应的状态类别;基于运行脉冲神经网络,根据所述状态类别,确定响应动作。可选的,所述对所述环境的状态信息进行预处理,得到对应的状态类别,具体包括:根据所述环境的状态信息,确定环境中的窗户所在的位置;根据窗户所在的位置以及预先设定的状态空间,对环境进行分类,确定环境的状态信息的状态类别。可选的,所述环境的状态信息为实时地获取由绿色填充的窗户的特征;其中,所述根据所述环境的状态信息,确定环境中的窗户所在的位置,具体包括:从所述特征中提取图像中的绿色区域;对所述绿色区域进行腐蚀和平滑,得到处理后的区域;对处理后的区域进行霍夫变换,得到图像中窗户的边缘;识别窗户的边缘,确定环境中的窗户所在的位置。可选的,所述状态类别的识别依据窗户的边数、开口方向以及窗户的相对位置来决定。可选的,所述运行脉冲神经网络由模拟哺乳动物脑自主决策相关的脑区及各脑区之间的兴奋性和抑制性连接关系组成;所述运行脉冲神经网络的确定方法具体包括:通过融合突触可塑性STDP机制,更新各脑区之间的权重;通过更新后的各脑区之间的权重,对所述运行脉冲神经网络的基本神经元模型进行更新学习:v′=0.04v2+5v+140-u+Iu′=a(bv-u)其中,v′表示基本神经元模型,v是膜电位,u是变量,I是输入,a,b,c,d是参数;根据基本神经元模型确定运行脉冲神经网络。可选的,根据以下公式,更新各脑区之间的权重Δwj:其中,A+表示正学习率,A-表示负学习率,τ+表示正时间常量,τ-表示负时间常量,Δti是突触前到突触后发放脉冲的时间延迟。可选的,所述基于运行脉冲神经网络,根据所述状态类别,确定响应动作,具体包括:通过前额叶皮层将所述状态类别输入至基底神经节;通过基底神经节选择和优化行为,并将选择和优化后的行为信号输出至丘脑;丘脑负责传输行为信号至负责执行行为的运动区丘脑;运动区丘脑传输行为信号至负责执行行为的前运动区;选择前运动区中最开始响应的动作。可选的,所述通过基底神经节选择和优化行为,并将选择和优化后的行为信号输出至丘脑,具体包括:基底神经节中包括直接通路、间接通路和超直接通路三条通路,直接通路是前额叶皮层PFC-StrD1-苍白球内侧核Gpi/黑质网状部SNr,用于促进对行为的选择;间接通路是PFC-StrD2-苍白球外侧部Gpe-Gpi/SNr,用于抑制对行为的选择;超直接通路是基底神经节中的丘脑底核STN接收PFC的输入,并为Gpe和Gpi/SNr提供兴奋性输入;基底神经节中的Gpi/SNr综合以上三条通路来选择和优化行为,并输出至丘脑。可选的,所述确定方法还包括:从环境中获得奖赏;由多巴胺携带,多巴胺通过调控网络中PFC-StrD1和PFC-StrD2的连接权重。为解决上述技术问题,本专利技术还提供了如下方案:一种基于受脑启发的自主决策脉冲神经网络响应动作确定系统,所述确定系统包括:获取单元,用于获取环境的状态信息;预处理单元,用于对所述环境的状态信息进行预处理,得到对应的状态类别;动作确定单元,用于基于运行脉冲神经网络,根据所述状态类别,确定响应动作。根据本专利技术的实施例,本专利技术公开了以下技术效果:本专利技术通过对环境的状态信息进行预处理,得到对应的状态类别,基于运行脉冲神经网络,根据所述状态类别,确定响应动作,可准确得到决策策略;从而使得受脑启发的自主决策脉冲神经网络符合生物依据,更具有可解释性。附图说明为了描述本专利技术的上述优点和特征,将通过引用附图中的具体实例来辅助说明本专利技术的详细内容。可以理解,这些附图仅为本专利技术的典型实例的描述,而非对本专利技术的限制。任何以其他形式表达本专利技术步骤或内容的附图都应属于本专利技术范围内。图1为本专利技术基于自主决策脉冲神经网络的响应动作确定方法的流程图;图2为本专利技术受脑启发的自主决策脉冲神经网络应用在无人机过窗任务中的整体示意图;图3为本专利技术中状态识别的示意图;图4为本专利技术中无人机自主过窗任务的状态空间图;图5为本专利技术基于受脑启发的自主决策脉冲神经网络响应动作确定系统的模块结构示意图。符号说明:获取单元—1,预处理单元—2,动作确定单元—3。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。本专利技术提供一种基于自主决策脉冲神经网络的响应动作确定方法,通过对环境的状态信息进行预处理,得到对应的状态类别,基于运行脉冲神经网络,根据所述状态类别,确定响应动作,可准确得到决策策略;从而使得受脑启发的自主决策脉冲神经网络符合生物依据,更具有可解释性。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,本专利技术基于自主决策脉冲神经网络的响应动作确定方法包括:步骤100:获取环境的状态信息。其中,可通过易搭载在无人机上的无线摄本文档来自技高网
...

【技术保护点】
1.一种基于自主决策脉冲神经网络的响应动作确定方法,其特征在于,所述确定方法包括:获取环境的状态信息;对所述环境的状态信息进行预处理,得到对应的状态类别;基于运行脉冲神经网络,根据所述状态类别,确定响应动作。

【技术特征摘要】
2018.11.12 CN 20181134195431.一种基于自主决策脉冲神经网络的响应动作确定方法,其特征在于,所述确定方法包括:获取环境的状态信息;对所述环境的状态信息进行预处理,得到对应的状态类别;基于运行脉冲神经网络,根据所述状态类别,确定响应动作。2.根据权利要求1所述的基于自主决策脉冲神经网络的响应动作确定方法,其特征在于,所述对所述环境的状态信息进行预处理,得到对应的状态类别,具体包括:根据所述环境的状态信息,确定环境中的窗户所在的位置;根据窗户所在的位置以及预先设定的状态空间,对环境进行分类,确定环境的状态信息的状态类别。3.根据权利要求2所述的基于自主决策脉冲神经网络的响应动作确定方法,其特征在于,所述环境的状态信息为实时地获取由绿色填充的窗户;其中,所述根据所述环境的状态信息,确定环境中的窗户所在的位置,具体包括:从所述由绿色填充的窗户中提取窗户特征;从所述窗户特征中提取图像中的绿色区域;对所述绿色区域进行腐蚀和平滑,得到处理后的区域;对处理后的区域进行霍夫变换,得到图像中窗户的边缘;识别窗户的边缘,确定环境中的窗户所在的位置。4.根据权利要求2所述的基于自主决策脉冲神经网络的响应动作确定方法,其特征在于,所述状态类别的识别依据窗户的边数、开口方向以及窗户的相对位置来决定。5.根据权利要求1所述的基于自主决策脉冲神经网络的响应动作确定方法,其特征在于,所述运行脉冲神经网络由模拟哺乳动物脑自主决策相关的脑区及各脑区之间的兴奋性和抑制性连接关系组成;所述运行脉冲神经网络的确定方法具体包括:通过融合突触可塑性STDP机制,更新各脑区之间的权重;通过更新后的各脑区之间的权重,对所述运行脉冲神经网络的基本神经元模型进行更新学习:v′=0.04v2+5v+140-u+I;u′=a(bv-u);其中,v′表示基本神经元模型,v是膜电位,u是变量,I是输入,a,b,c,d是参数;根据基本神经元模型确定运行脉...

【专利技术属性】
技术研发人员:赵菲菲曾毅
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1