当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于深度强化学习的台风中心定位方法技术

技术编号:25046428 阅读:21 留言:0更新日期:2020-07-29 05:35
本发明专利技术公开了一种基于深度强化学习的台风中心定位方法,该方法结合了深度学习的感知能力和强化学习的决策能力,把台风中心定位问题转化为在卫星云图上利用搜索框搜索台风中心的一系列决策行为,将搜索过程使用马尔可夫决策过程建模,通过深度强化学习算法训练一个智能体学习使用简单的操作来移动和减小搜索框,使搜索框的中心不断靠近真实台风中心,进而实现台风中心自主定位。本发明专利技术方法实现了对不同等级和不同形态的台风检测及中心定位,并通过实验验证了本方法的有效性。

【技术实现步骤摘要】
一种基于深度强化学习的台风中心定位方法
本专利技术涉及气象学以及机器学习领域,特别涉及一种基于深度强化学习的台风中心定位方法。
技术介绍
台风是一种深厚的低气压涡旋状云系,多发生于热带和副热带海洋上。台风具有突发性强、破坏力大的特点,不仅对航空航海活动造成巨大的影响和灾难,登陆后还会在人员聚集的陆地造成重大的经济损失和人员伤亡[1]。台风中心定位是分析预报台风、降低台风灾害的重要环节和关键技术,其定位精度与台风路径的确定及台风路径的预测及其带来的雷雨大风的预报质量密切相关,因此对台风中心定位技术的研究是台风精准预测预报及减灾精细化科学分析中的最基本而又最重要的工作。气象卫星具有覆盖范围广、时空分辨率高,抗恶劣天气能力强的特点,是全天候监测台风的主要工具。在利用气象卫星实现台风中心定位的方法中,一方面一些学者从台风云形特点的角度出发,Dvorak提出利用云形特点将台风分为不同模式来估计台风中心的模式匹配方法[2];冯民学等人利用数学形态学方法得到台风云系的若干连通域,用以得到成熟期有眼台风的眼区候选中心[3];谢俊元等人利用提取的云带轴线拟合台风螺旋,将螺旋线的数学模型中心作为台风中心[4];另一方面,一些学者从卫星云图时序信息的角度出发,Schemetz等[5]基于卫星云图时序信息可以反演出风场变化的矢量图,通过分析云导风矢量与云系运动变化的关系来确定台风中心;Hasler[6]等将台风云系的非刚性运动用半流形场进行模拟,提出基于云系特征追踪的半流场分析法分析台风眼区的风场情况;王萍等[7]通过分析云导风矢量和云系运动变化的关系,结合图像分析法得到台风中心。专利技术人在实现本专利技术的过程中,发现现有技术中至少存在以下缺点和不足:目前这些方法往往只能应对呈现明显台风眼或云带的螺旋性突显的台风云系,这种台风云系往往只占据完整台风生命周期中处于成熟期的一段时间,因此,自始至终完成台风定位及台风路径拟合是比较困难的;而对于复杂的、难以抽象出代表性机理特征的台风图像问题,现有方法更难以胜任。参考文献:[1]端义宏,陈联寿,许映龙,等.我国台风监测预报预警体系的现状及建议[J].中国工程科学,2012,14(9):4-9.[2]DvorakVF.Tropicalcycloneintensityanalysisandforecastingfromforecastingfromsatelliteimagery[J].MonthlyWeatherReview,1975,103(5):420-430.[3]冯民学,于波,陈必云.有眼台风的自动定位方法初探[J].气象,1997,23(12):15-17.[4]谢俊元.台风中心定位中的螺旋线自动识别算法[J].软件学报,1997,8(a00):398-403.[5]SchmetzJ.;HolmlundK.;HoffmanJ.Operationalcloud-motionwindsfrommeteosatinfraredimages.JournalofAppliedMeteorology1993,32(7):1206-1225.[6]HaslerAF,PalaniappanK,KambhammetuC,etal.High-resolutionwindfieldswithintheinnercoreandeyeofamaturetropicalcyclonefromgoes1-minimages[J].BulletinoftheAmericanMeteorologicalSociety,1998,79(11):2483-2496.[7]王萍,宋振龙,孔秀梅,等.基于云导风场的形成期台风定位[J].模式识别与人工智能,2005,18(6):752-757.
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种基于深度强化学习的台风中心定位方法,本方法能够实现对不同等级和不同形态的台风中心进行定位,提高台风中心定位的准确率和效率,本专利技术的技术方案详见下文描述:一种基于深度强化学习的台风中心定位方法,所述方法包括以下步骤:(1)使用马尔可夫决策过程对台风中心搜索过程进行建模;(2)构建台风中心定位的深度强化学习网络结构;(3)确定深度强化学习网络的训练策略;(4)设计台风云系判定条件;(5)通过深度Q学习(DQN)算法训练智能体搜索台风中心。所述使用马尔可夫决策过程建模的步骤具体为:1)定义五个搜索框可选动作。当前搜索框B的边长为l1,中心点为c,经过动作ai(i=1,2,3,4,5)后下一状态的搜索框B’,边长为l2,中心为c’,动作a1-a4的执行效果是将B按比例k=l2/l1缩小变成B′,然后将B′与B分别在当前搜索框B的左上角、右上角、左下角和右下角处对齐;动作a5将B按比例k缩小以形成B′,将B′与B在它们的中心点处对齐。2)定义状态向量。状态向量用s表示,由两部分组成,第一部分为当前搜索框覆盖下的云分布特征,由特征提取网络提供;第二部分为执行过的4个邻近动作序列,在这里对这4个邻近动作进行编码形成20个维度,再与第一部分直接连接起来成一个一维状态向量。3)定义奖励值r。执行动作ai后将搜索框由B变为B′,并将状态由s变为s′,则该动作的表现情况由搜索框的中心点与真实台风中心点之间的欧式距离的变化来衡量,若当前搜索框的中心点与真实台风中心点更接近时,奖励值为1,否则奖励值为-1。所述台风中心定位的深度强化学习网络结构具体为:台风中心定位使用的网络结构由特征提取网络(CNN)和深度Q网络组成。网络的输入是卫星云图上搜索框内的区域,由特征提取网络进行搜索框内的云特征描述,提取特征图。之后将特征图扩展成一维向量,经过一个全连接网络后与搜索框执行过的邻近动作序列组合成状态向量作为深度Q网络的输入。深度Q网络由三层全连接层组成,网络的输出为每个动作的Q值。Q值表示在特定状态st下根据特定策略执行动作at而获得的未来奖励的期望,定义为:Qπ(st,at)=E[Rt+1+γRt+2+γ2Rt+3+L|st,at](1)其中Ri+1为第i步的立即回报,γ(γ<1)为折扣因子。依据对网络输出的值的判断选定一个动作之后,使云图上搜索框的大小和位置有所调整,再次作为网络输入,继续进行台风中心搜索。所述确定深度强化学习网络的训练策略包括:1)经验回放机制。将搜索框探索环境得到的状态转移数据<s,a,r,s’>储存起来,然后通过在经验存储器中随机采样更新深度神经网络的参数。2)ε-greedy策略。以1-ε的概率执行当前网络生成的最优策略,以ε的概率来执行随机动作。ε从1开始,以0.1为步长递减,直到ε=0.1。3)搜索框尺度调整策略。在搜索过程中,搜索框缩小的比例k随时间步step的增大而减小:式中,[*]表示取整函数。所述设计的台风云系判定条件具体为:本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的台风中心定位方法,其特征在于,包括以下步骤:/n(1)使用马尔可夫决策过程对台风中心搜索过程进行建模;/n(2)构建台风中心定位的深度强化学习网络结构;/n(3)确定深度强化学习网络的训练策略;/n(4)设计台风云系判定条件;/n(5)通过深度Q学习算法训练智能体搜索台风中心。/n

【技术特征摘要】
1.一种基于深度强化学习的台风中心定位方法,其特征在于,包括以下步骤:
(1)使用马尔可夫决策过程对台风中心搜索过程进行建模;
(2)构建台风中心定位的深度强化学习网络结构;
(3)确定深度强化学习网络的训练策略;
(4)设计台风云系判定条件;
(5)通过深度Q学习算法训练智能体搜索台风中心。


2.根据权利要求1所述的一种基于深度强化学习的台风中心定位方法,其特征在于,所述步骤(1)的具体内容为:
(1)定义五个搜索框可选动作:当前搜索框B的边长为l1,中心点为c,经过动作ai(i=1,2,3,4,5)后下一状态的搜索框B'边长为l2,中心为c’,动作a1-a4的执行效果是将B按比例k=l2/l1缩小变成B',然后将B'与B分别在当前搜索框B的左上角、右上角、左下角和右下角处对齐;动作a5将B按比例k缩小以形成B',将B'与B在它们的中心点处对齐;
(2)定义状态向量:状态向量由两部分组成,第一部分为当前搜索框覆盖下的云分布特征,由特征提取网络提供;第二部分为执行过的4个邻近动作序列,在这里对这4个邻近动作进行编码形成20个维度,再与第一部分直接连接起来成一个一维状态向量;
(3)定义奖励值:执行动作后搜索框由B变为B',并将状态由s变为s',则该动作的表现情况由搜索框的中心点与真实台风中心点之间的欧式距离的变化来衡量,若当前搜索框的中心点与真实台风中心点更接近时,奖励值为1,否则奖励值为-1。


3.根据权利要求1所述的一种基于深度强化学习的台风中心定位方法,其特征在于,所述步骤(2)的具体内容为:使用特征提取网络CNN和深度Q网络组成台风中心定位网络,以卫星云图上搜索框内的区域作为网络输入,由特征提取网络提取特征图;将特征图扩展成一维向量,经过一个全连接网络后与搜索框执行过的邻近动作序列组合成状态向量作为深度Q网络的输入;深度Q网络由三层全连接层组成,网络的输出为每个动作的Q值,Q值表示在特定状态st下根据特定策略执行动...

【专利技术属性】
技术研发人员:王萍宗露露侯谨毅陈皓一
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1