基于多模态融合的多脑区协同自主决策方法技术

技术编号:18290032 阅读:101 留言:0更新日期:2018-06-24 04:58
本发明专利技术属于认知神经技术领域,具体涉及一种基于多模态融合的多脑区协同自主决策方法。旨在解决现有无人机避障技术成本较高、不够机动灵活以及现有的强化学习方法要求控制对象具有强烈的容错能力的问题。本发明专利技术提供一种基于多模态融合的多脑区协同自主决策方法,包括获取障碍物的空间位置信息,将其输入预先构建的多脑区协同强化学习模型;根据环境反馈的奖励信息,通过多巴胺调控和突触可塑性机制,更新所述多脑区协同强化学习模型,实现无人机自主避障。本发明专利技术能够准确地评估场景中障碍物的危险程度,并且模拟人脑自主学习过程,让无人机快速准确地学习到避障策略,实现自主躲避障碍物,完成任务。

【技术实现步骤摘要】
基于多模态融合的多脑区协同自主决策方法
本专利技术属于认知神经
,具体涉及一种基于多模态融合的多脑区协同自主决策方法。
技术介绍
随着无人机技术的发展,无人机因其实用性广泛应用于多个
,无人机的主动安全性是其得以在真实场景中安全应用的基本。无人机的主动安全性是指其能够精确地感知障碍物并且自主地避开障碍物。现有的无人机避障技术中,主要包括红外和激光测距实现无人机避障,但是红外和激光容易受到外界环境的影响和干扰,导致距离测量不准,容易造成安全事故。此外,现有的无人机避障技术一般依赖于三维地图、双目摄像机或者其他高精度设备等实现,成本较高且不够机动灵活。此外,对于现有的无人机避障强化学习决策,现有的强化学习方法主要包括:传统强化学习方法:通过Q-learning、Actor-Critic算法解决离散的强化学习问题,适用于简单的强化学习问题,并且要求状态之间通过一步行为进行切换;深度强化学习方法:通过结合深度神经网络和Q-learning算法,基于梯度下降方法优化神经网络,其中深度神经网络能够抽象表达高维的输入信息,并且不需要进行状态划分,适用于具有大量数据信息的情况,但是计算需要花费较多时间;层次强化学习方法:通过集成不同的行为到子路线中,每个子路线都是强化学习的一个特殊情况,适用于解决复杂的规划问题,并且要求控制对象尽可能经历所有可能的情况。现有的强化学习方法均需要控制对象具有强烈的容错能力,可以多次尝试错误的结果,并且不断地调整策略,要求每次执行行为、输入的状态要有明显的不同。而对于实际应用中的无人机,不可能经历所有的状态空间,而且为了确保其安全性,必须快速准确地学习到正确的策略。因此,如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。
技术实现思路
为了解决现有技术中的上述问题,即为了解决现有无人机避障技术成本较高、不够机动灵活以及现有的强化学习方法要求控制对象具有强烈的容错能力的问题,本专利技术提供了一种基于多模态融合的多脑区协同自主决策方法,所述方法包括:通过超声波传感器和双目摄像头获取障碍物的空间位置信息,将其输入预先构建的多脑区协同强化学习模型;基于所述障碍物的空间位置信息,使用尖峰时序神经网络构建多脑区协同强化学习模型;根据环境反馈的奖励信息,通过多巴胺调控和突触可塑性机制,更新所述多脑区协同强化学习模型,实现无人机自主避障。在上述方法的优选技术方案中,“获取障碍物的空间位置信息”,其方法为:通过所述无人机搭载的超声波传感器获取所述无人机与所述障碍物的距离信息;通过所述无人机搭载的双目摄像头获取所述障碍物的图像信息,根据所述障碍物的图像信息获取所述障碍物的深度信息;将所述距离信息与所述深度信息进行融合,得到所述障碍物的空间位置信息。在上述方法的优选技术方案中,所述多脑区协同强化学习模型包括:尖峰时序神经网络模块,所述尖峰时序神经网络模块被配置为通过突触可塑性机制判断突触前发送脉冲和突触后神经元发放脉冲的时间差,根据判断结果更新突触强度,实现所述多脑区协同强化学习模型的更新学习;神经簇模块,所述神经簇模块被配置为通过发送脉冲的方式将信息输入至突触后神经元,模拟人脑中的脑区;多个神经簇模块按照人脑脑区的连接方式进行连接。在上述方法的优选技术方案中,“根据判断结果更新突触强度”,其方法为按照下式所述的方法计算:其中,A+、A-均表示学习率,τ+,τ-均表示时间常量,Δti表示突触前到突触后发放spike的时间延迟。在上述方法的优选技术方案中,“根据环境反馈的奖励信息,通过多巴胺调控和突触可塑性机制,更新所述多脑区协同强化学习模型,实现无人机自主避障。”,其方法为:所述多巴胺和突触可塑性机制通过调控所述多脑区协同强化学习模型的PFC-StrD1和PFC-StrD2的连接权重,更新所述多脑区协同强化学习模型;更新后的多脑区协同强化学习模型根据输入信息产生输出信息后,得到奖励信息。在上述方法的优选技术方案中,所述奖励信息的计算方法为按照下式所述的方法计算:rewardend=reward(t)-reward(t-1)其中,t表示时刻,rewardend表示当前时刻的奖励信息减去上一时刻的奖励信息。在上述方法的优选技术方案中,“更新所述多脑区协同强化学习模型”,其方法为:当所述奖励信息为正奖励时,增强所述多脑区协同强化学习模型PFC-StrD1的连接,减弱所述多脑区协同强化学习模型PFC-StrD2的连接;当所述奖励信息为负奖励时,增强所述多脑区协同强化学习模型PFC-StrD2的连接,减弱所述多脑区协同强化学习模型PFC-StrD1的连接。在上述方法的优选技术方案中,“获取障碍物的空间位置信息”之后,该方法还包括:使用棋盘格标定法对所述双目摄像头进行标定,得到所述双目摄像头的内、外参数;根据所述双目摄像头的内、外参数计算校正所述双目摄像头采集图像的校准参数,基于所述校准参数校准所述双目摄像头采集的图像;根据立体匹配GraphCut算法中的SGBM算法计算校准后的图像,得到所述双目摄像头采集图像的视差图;对所述视差图中的轮廓信息进行聚类分析,得到所述视差图中物体所在区域;获取所述物体所在区域中噪声值大于预设阈值的区域,并将该区域作为危险障碍物区域。与最接近的现有技术相比,本专利技术提供一种基于多模态融合的多脑区协同自主决策方法,包括:通过超声波传感器和双目摄像头获取障碍物的空间位置信息,将其输入预先构建的多脑区协同强化学习模型;根据环境反馈的奖励信息,通过多巴胺调控和突触可塑性机制,更新所述多脑区协同强化学习模型,实现无人机自主避障。上述技术方案至少具有如下有益效果:1、本专利技术能够融合超声波传感器和双目摄像头获取的信息,可以更加准确可靠地描述无人机所在环境及评估场景中障碍物的危险程度。多传感器信息融合能够有效地对环境进行一致性描述,从而降低单个传感器的不确定性和局限性,使得无人机获得更多的可靠信息,具有更高的容错性。2、本专利技术通过对人脑的多脑区协同强化学习通路进行计算建模,模拟了人脑自主学习过程中涉及到的PFC、黑质致密部(SNc)、中脑腹侧被盖区(VTA)、StrD1、StrD2、STN、GPe、GPi、SNr、丘脑、运动皮层共11个脑区,并且分别从脑区的功能和脑区之间的连接关系两个方面进行模拟,能够让无人机在不需要经历所有状态空间的基础上,快速准确地学习到避障策略,完成任务。附图说明图1为本专利技术一种实施例基于多模态融合的多脑区协同自主决策方法的流程示意图;图2为本专利技术一种实施例感知障碍物的流程示意图;图3为本专利技术一种实施例危险障碍物区域的示意图;图4为本专利技术一种实施例多脑区协同强化学习模型的框架示意图;图5为本专利技术一种实施例中无人机自主避障学习过程的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并本文档来自技高网
...
基于多模态融合的多脑区协同自主决策方法

【技术保护点】
1.一种基于多模态融合的多脑区协同自主决策方法,其特征在于,所述方法包括:通过超声波传感器和双目摄像头获取障碍物的空间位置信息,将其输入预先构建的多脑区协同强化学习模型;基于所述障碍物的空间位置信息,基于障碍物的空间位置信息,使用尖峰时序神经网络构建多脑区协同强化学习模型;根据环境反馈的奖励信息,通过多巴胺调控和突触可塑性机制,更新所述多脑区协同强化学习模型,实现无人机自主避障。

【技术特征摘要】
1.一种基于多模态融合的多脑区协同自主决策方法,其特征在于,所述方法包括:通过超声波传感器和双目摄像头获取障碍物的空间位置信息,将其输入预先构建的多脑区协同强化学习模型;基于所述障碍物的空间位置信息,基于障碍物的空间位置信息,使用尖峰时序神经网络构建多脑区协同强化学习模型;根据环境反馈的奖励信息,通过多巴胺调控和突触可塑性机制,更新所述多脑区协同强化学习模型,实现无人机自主避障。2.根据权利要求1所述的方法,其特征在于,“获取障碍物的空间位置信息”,其方法为:通过所述无人机搭载的超声波传感器获取所述无人机与所述障碍物的距离信息;通过所述无人机搭载的双目摄像头获取所述障碍物的图像信息,根据所述障碍物的图像信息获取所述障碍物的深度信息;将所述距离信息与所述深度信息进行融合,得到所述障碍物的空间位置信息。3.根据权利要求1所述的方法,其特征在于,所述多脑区协同强化学习模型包括:尖峰时序神经网络模块,所述尖峰时序神经网络模块被配置为通过突触可塑性机制判断突触前发送脉冲和突触后神经元发放脉冲的时间差,根据判断结果更新突触强度,实现所述多脑区协同强化学习模型的更新学习;神经簇模块,所述神经簇模块被配置为通过发送脉冲的方式将信息输入至突触后神经元,模拟人脑中的脑区;多个神经簇模块按照人脑脑区的连接方式进行连接。4.根据权利要求3所述的方法,其特征在于,“根据判断结果更新突触强度”,其方法为按照下式所述的方法计算:其中,A+、A-均表示学习率,τ+,τ-均表示时间常量,Δti表示突触前到突触后发放spike的时间延迟。5.根据权利要求1所述的方法,其特征在于,“通过多巴胺调控和突触可塑性...

【专利技术属性】
技术研发人员:赵菲菲梁倩王桂香曾毅
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1