时空双流数据驱动深度Q学习的无人船智能航行控制方法技术

技术编号:21224006 阅读:27 留言:0更新日期:2019-05-29 04:46
本发明专利技术提出一种空间和时分双流大数据驱动的深度Q学习网络方法来实现高精度导航下的无人船自主智能航行控制,具体步骤包括:采样时空双流大数据、设计深度Q学习网络智能避障控制器、设计奖惩函数、设计智能切换阈值函数、在线学习。本发明专利技术可以实现:空旷水域时让无人船在高精度定位导航下航行;复杂水域时,深度Q学习网络智能避障控制器让无人船在智能避障模式下自主避障航行;并能根据环境采样,评估实时风险估计因子,从而在这两种模式间实时智能切换。此外,深度Q学习网络智能避障控制器具有自学习能力和高度的人工智能。最后,本方法对现有船舶航行控制系统的兼容性较好,实现本方法的软硬件资源要求也相对简单。

Intelligent Navigation Control Method for Unmanned Vehicles Driven by Spatio-temporal Dual-stream Data and Deep Q Learning

The invention proposes a deep Q learning network method driven by spatial and temporal dual-stream large data to realize autonomous intelligent navigation control of UAV under high precision navigation. The specific steps include: sampling large data of space-time dual-stream, designing intelligent obstacle avoidance controller of deep Q learning network, designing reward and punishment function, designing intelligent switching threshold function and online learning. The invention can realize the following tasks: making the unmanned ship navigate under high precision positioning and navigation in open waters; making the unmanned ship navigate autonomously under the intelligent obstacle avoidance mode in complex waters by the intelligent obstacle avoidance controller of deep Q learning network; and evaluating the real-time risk estimation factor according to environmental sampling, so as to realize real-time intelligent switching between the two modes. In addition, the intelligent obstacle avoidance controller of deep Q learning network has self-learning ability and high artificial intelligence. Finally, the method is compatible with the existing ship navigation control system, and the requirement of hardware and software resources is relatively simple.

【技术实现步骤摘要】
时空双流数据驱动深度Q学习的无人船智能航行控制方法
本专利技术涉及一种时空双流数据驱动深度Q学习的无人船智能航行控制方法,特别是一种在高精度定位导航下,采用空间和时分双流实时采样数据驱动,基于深度Q学习网络的无人船智能航行控制方法。属于无人船智能控制

技术介绍
要让高精度定位导航下的船舶拥有人类的观察能力和智能,而不依赖于驾驶员的瞭望和操舵,穿越复杂水面实现自主智能航行与避障,并不是一件容易的事情。由于水面开阔且障碍物位置多变,无人船没法像无人车那样依赖于车道线检测;也无法像Boston动力机器人那样进行3D建模或者3D建模的参照效果非常有限;以云洲智能为代表的无人船,采用高精确定位导航和雷达避碰,在智能化方面还需要新的理论和技术支撑。过去,人们采用自动控制原理和现代控制理论方法,实现了船舶航行的闭环反馈控制以及基于模型的控制;后来,最小二乘法、支撑向量机、蚁群算法等自适应控制算法,使船舶拥有了自适应路径规划的能力。现在,经对现有专利检索发现,申请号为201710502348.4和201810454631.9的专利,专利技术了一种基于图像视觉的无人船避障方法和装置,但它们都需要非常复杂的传统图像处理算法来计算障碍物的坐标位置。申请号为201710458496.0的专利,专利技术了一种基于增强学习算法的无人船侧向控制方法,其增强学习控制器采用Actor-Critic结构,并且需要被控系统的模型。申请号为201810008481.9的专利,专利技术了一种无人船自主航行的协同云控制系统,但它需要岸端、船载、通信及协同云控制系统等非常复杂系统和信息的共同交互与作用。申请号为201710691295.5、201711285895.8和201810160232.1的专利,专利技术了一种无人船的自主导航系统及方法,但都没有采用人工智能方法。
技术实现思路
随着人工智能和深度学习理论的发展,为克服已有技术的不足和缺陷,本专利技术提出一种基于深度Q学习网络的无人船智能航行控制方法,通过360°脉冲激光测距仪,实时采样无人船相对于周围环境中障碍物距离的空间和时分双流大数据信息,输入给专门设计的深度Q学习网络智能避障控制器,经大量仿真和在线环境下的强化学习,将能根据预先设置的阈值,在高精度定位导航和智能避障航行模式间实时智能切换,并最终实现无人操纵下的完全自主智能航行,具有高度的学习能力和人工智能。为了实现以上目的,本专利技术是通过以下技术方案实现的:一种时空双流数据驱动深度Q学习的无人船智能航行控制方法,其特点是,该方法包括如下步骤:S1,采样时空双流大数据:通过安装在无人船顶部的360°脉冲激光测距仪,采用预设角度分辨率扫描无人船与周围环境距离dt的空间大数据,即测取每帧N维的无人船与周围环境距离dt的空间大数据;再通过相邻两帧dt数据的差ot=dt-dt-1,测取每帧N维的无人船与周围环境相对运动速度ot的时分大数据;S2,设计一深度Q学习网络智能避障控制器:采用并联的空间距离流卷积神经网络与时分速度流卷积神经网络和后续一个串联的全连接层神经网络,来设计深度Q学习网络智能避障控制器;S3,设计奖惩函数:奖惩函数用标量r表示,它用于导向深度Q学习网络智能避障控制器的学习过程,对深度Q学习网络智能避障控制器所采取动作的好坏做出评价;S4,设计智能切换阈值函数:所述的智能切换阈值函数用于根据其阈值,在深度Q学习网络智能避障控制器和高精度定位导航控制器之间实时智能切换,并最终实现无人船在无人操纵下的完全自主智能航行;S5,在线学习:为描述深度Q学习网络智能避障控制器的在线学习过程,需定义状态变量S、记忆回放库D、评估函数Q(st,at)如下:s=[dt,ot],t=0,1,2,...(1)D=[(s,a,r,s',a'),...,...],t=0,1,2,...(2)并设计一网络作为深度Q学习网络智能避障控制器当前值网络,同时设计一个与其结构完全相同的网络,作为深度Q学习网络智能避障控制器目标值网络。所述的步骤S2中N维dt输入的空间距离大数据设计为并联的空间距离流卷积神经网络的输入,该网络有2层,从输入到输出分别是:N维dt输入经卷积池化层后为M维中间层,该M维中间层经卷积池化层后为M/2维输出层;N维ot输入的时分速度大数据设计为并联的时分速度流卷积神经网络的输入,该网络也有2层,从输入到输出分别是:N维ot输入经卷积池化层后为M维中间层,该M维中间层经卷积池化层后为M/2维输出层;空间距离流卷积神经网络的M/2维输出层和时分速度流卷积神经网络的M/2维输出层并联,形成一个M维输入层,通过一个全连接层神经网络,实现到5维输出层Q(s,a;w)的输出,所述5维输出分别是对无人船执行“停、前、后、右、左”的转向和运动控制执行信号的Q值估计。所述的步骤S3中若无人船成功避开周围环境的障碍物,评价为r=1;若无人船撞上周围环境的障碍物,评价为r=-1;其它结果,则评价为r=0,所述深度Q学习网络智能避障控制器的目的就是要使无人船获得的奖惩函数值之和最大;所述的步骤S4中,先设计实时风险估计因子ξ为:其中,k∈[0,1],用于指示对相对速度的敏感度,所述实时风险估计因子ξ越大,碰撞的风险就越高;并设定智能切换阈值函数的切换阈值λ=0.091,当ξ≥λ时,执行深度Q学习网络智能避障控制器输出的控制信号a=a1;当ξ<λ时,执行高精度定位导航控制器输出的控制信号a=a2,如下式所示:所述的步骤S6中,学习过程按如下步骤循环执行:步骤S6.1,初始化记忆回放库D为全0矩阵,用小伪随机数随机初始化深度Q学习网络智能避障控制器当前值网络的连接权值参数w和深度Q学习网络智能避障控制器目标值网络的连接权值参数w-;步骤S6.2,将无人船的360°脉冲激光测距仪所采集时分大数据信息,传递给深度Q学习网络智能避障控制器当前值网络和深度Q学习网络智能避障控制器目标值网络的输入端,获取环境的特征信息(s,a,r,s',a'),并将其保存于记忆回放库D中,其中,s'是下一时刻的状态变量,a'是下一时刻输出的控制信号;步骤S6.3,从记忆回放库D中随机取出一批样本作为学习数据;步骤S6.4,用深度Q学习网络智能避障控制器当前值网络计算Q(s,a;w),用深度Q学习网络智能避障控制器目标值网络计算:y=r+γmaxa'Q(s',a';w-),其中,γ为折扣因子;步骤S6.5,以I=(r+γmaxa'Q(s',a';w-)-Q(s,a;w))2为深度Q学习网络的模型损失函数,并基于该模型损失函数,采用随机梯度下降算法学习,来提升深度Q学习网络智能避障控制器当前值网络的连接权值参数w;步骤S6.6,每隔N步将深度Q学习网络智能避障控制器当前值网络的连接权值参数w,赋值给深度Q学习网络智能避障控制器目标值网络的连接权值参数w-。本专利技术与现有技术相比,具有以下优点:本专利技术通过实时采样无人船相对于周围环境中障碍物距离的空间和时分双流大数据信息,给出了实现无人船自主智能航行的完整方案和方法,并基于深度Q学习网络实现无人船自主智能航行的控制。空旷水域时让无人船在高精度定位导航下航行;复杂水域时,深度Q学习网络智能避障控制器让无人船在智能避障模式下自主避障航行;并能根据环境采样评估本文档来自技高网
...

【技术保护点】
1.一种时空双流数据驱动深度Q学习的无人船智能航行控制方法,其特征在于,该方法包括如下步骤:S1,采样时空双流大数据:通过安装在无人船顶部的360°脉冲激光测距仪,采用预设角度分辨率扫描无人船与周围环境距离dt的空间大数据,即测取每帧N维的无人船与周围环境距离dt的空间大数据;再通过相邻两帧dt数据的差ot=dt‑dt‑1,测取每帧N维的无人船与周围环境相对运动速度ot的时分大数据;其中,下标t表示采样时刻t;S2,设计一深度Q学习网络智能避障控制器:采用并联的空间距离流卷积神经网络与时分速度流卷积神经网络和后续一个串联的全连接层神经网络,来设计深度Q学习网络智能避障控制器;S3,设计奖惩函数:奖惩函数用标量r表示,它用于导向深度Q学习网络智能避障控制器的学习过程,对深度Q学习网络智能避障控制器所采取动作的好坏做出评价;S4,设计智能切换阈值函数:所述的智能切换阈值函数用于根据其阈值,在深度Q学习网络智能避障控制器和高精度定位导航控制器之间实时智能切换,并最终实现无人船在无人操纵下的完全自主智能航行;S5,在线学习:为描述深度Q学习网络智能避障控制器的在线学习过程,需定义状态变量S、记忆回放库D、评估函数Q(st,at)如下:s=[dt,ot],t=0,1,2,...                      (1)D=[(s,a,r,s',a'),...,...],t=0,1,2,...                (2)...

【技术特征摘要】
1.一种时空双流数据驱动深度Q学习的无人船智能航行控制方法,其特征在于,该方法包括如下步骤:S1,采样时空双流大数据:通过安装在无人船顶部的360°脉冲激光测距仪,采用预设角度分辨率扫描无人船与周围环境距离dt的空间大数据,即测取每帧N维的无人船与周围环境距离dt的空间大数据;再通过相邻两帧dt数据的差ot=dt-dt-1,测取每帧N维的无人船与周围环境相对运动速度ot的时分大数据;其中,下标t表示采样时刻t;S2,设计一深度Q学习网络智能避障控制器:采用并联的空间距离流卷积神经网络与时分速度流卷积神经网络和后续一个串联的全连接层神经网络,来设计深度Q学习网络智能避障控制器;S3,设计奖惩函数:奖惩函数用标量r表示,它用于导向深度Q学习网络智能避障控制器的学习过程,对深度Q学习网络智能避障控制器所采取动作的好坏做出评价;S4,设计智能切换阈值函数:所述的智能切换阈值函数用于根据其阈值,在深度Q学习网络智能避障控制器和高精度定位导航控制器之间实时智能切换,并最终实现无人船在无人操纵下的完全自主智能航行;S5,在线学习:为描述深度Q学习网络智能避障控制器的在线学习过程,需定义状态变量S、记忆回放库D、评估函数Q(st,at)如下:s=[dt,ot],t=0,1,2,...(1)D=[(s,a,r,s',a'),...,...],t=0,1,2,...(2)其中,下标t表示采样时刻t,所以st表示t时刻的状态变量;at表示t时刻的控制信号;并设计一网络作为深度Q学习网络智能避障控制器当前值网络,同时设计一个与其结构完全相同的网络,作为深度Q学习网络智能避障控制器目标值网络。2.如权利要求1所述的时空双流数据驱动深度Q学习的无人船智能航行控制方法,其特征在于,所述的步骤S2中N维dt输入的空间距离大数据设计为并联的空间距离流卷积神经网络的输入,该网络有2层,从输入到输出分别是:N维dt输入经卷积池化层后为M维中间层,该M维中间层经卷积池化层后为M/2维输出层;N维ot输入的时分速度大数据设计为并联的时分速度流卷积神经网络的输入,该网络也有2层,从输入到输出分别是:N维ot输入经卷积池化层后为M维中间层,该M维中间层经卷积池化层后为M/2维输出层;空间距离流卷积神经网络的M/2维输出层和时分速度流卷积神经网络的M/2维输出层并联,形成一个M维输入层,通过一个全连接层神经网络,实现到5维输出层Q(s,a;w)的输出,所述5维输出分别是对无人船执行“停、前、后、右...

【专利技术属性】
技术研发人员:黄志坚随博文温家一吴恭兴张桂臣刘雁集
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1