学习装置、信息处理装置、及完成学习的控制模型制造方法及图纸

技术编号:31726095 阅读:14 留言:0更新日期:2022-01-05 15:51
本发明专利技术的学习系统SY1通过向控制模型M输入包含无人飞机P的周边环境、或无人飞机P的预定飞行区域环境的气象信息的环境信息而取得从控制模型M输出的控制信息,使用表示无人飞机P采取基于所述控制信息的行动的情况下所述行动的结果评价的奖励r而进行控制模型M的强化学习。化学习。化学习。

【技术实现步骤摘要】
【国外来华专利技术】学习装置、信息处理装置、及完成学习的控制模型


[0001]本专利技术涉及一种强化学习控制模型的装置等
,该控制模型输出用于进行可无人飞行的飞机的飞行控制的控制信息。

技术介绍

[0002]以往,为了进行移动机器的移动控制,而研究使用机械学习的一种也就是强化学习。例如,在专利文献1,揭示输入通过汽车或无人机等移动机器拍摄的图像,而进行关于移动机器的移动控制的强化学习的技术。
[0003]
技术介绍
文献
[0004]专利文献
[0005]专利文献1:日本专利特开2018

198012号公报

技术实现思路

[0006][专利技术所要解决的问题][0007]然而,无人机这样可无人飞行的飞机容易受气象的影响。例如即便用所述技术进行飞机的飞行控制,在逆风飞行的情况下,一般也会认为消耗电力变大,或飞行变得不稳定。
[0008]因此,提供一种学习装置、信息处理装置、及完成学习的控制模型,该学习装置可获得用于进行灵活的飞行控制的控制信息,该飞行控制减少可无人飞行的飞机周边环境等中的气象的影响。
[0009][解决问题的技术手段][0010]为了解决所述问题,权利要求1所述的专利技术是一种学习装置,其特征在于:进行输出控制信息的控制模型的强化学习,该控制信息用于进行可无人飞行的飞机的飞行控制,且所述学习装置具备:环境信息取得部,其取得包含所述飞机的周边环境与所述飞机的预定飞行区域的环境的至少任一环境的气象信息的环境信息;控制信息取得部,其通过向所述控制模型输入所述环境信息而取得从所述控制模型输出的所述控制信息;奖励指定部,其指定表示所述飞机采取基于所述控制信息的行动的情况下所述行动的结果评价的奖励;及学习控制部,其使用由所述奖励指定部指定的所述奖励来控制所述控制模型的强化学习。由此,可获得用于进行灵活的飞行控制的控制信息,该飞行控制减少可无人飞行的飞机周边环境等中的气象的影响。
[0011]权利要求2所述的专利技术是根据权利要求1所述的学习装置,其特征在于:所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的姿态来指定不同的所述奖励。由此,可以输出即便有气象的影响也使所述飞机进行稳定地保持飞机姿态的控制信息的方式,进行控制模型的学习。
[0012]权利要求3所述的专利技术是根据权利要求1或2所述的学习装置,其特征在于:所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的飞行稳定性来指定不同的所述
奖励。由此,可以输出即便有气象的影响也使所述飞机进行飞机的飞行稳定性较高的飞行的控制信息的方式,进行控制模型的学习。
[0013]权利要求4所述的专利技术是根据权利要求3所述的学习装置,其特征在于:基于所述飞机的振动来评价所述飞行稳定性。
[0014]权利要求5所述的专利技术是根据权利要求1至4中任一项所述的学习装置,其特征在于:所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的高度来指定不同的所述奖励。由此,可以输出即便有气象的影响也使所述飞机进行保持飞机的安全高度的飞行的控制信息的方式,进行控制模型的学习。
[0015]权利要求6所述的专利技术是根据权利要求1至5中任一项所述的学习装置,其特征在于:所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的高度是否包含于指定的高度范围内来指定不同的所述奖励。由此,可以输出即便有气象的影响也使所述飞机进行使飞机的高度保持在指定的高度范围内的飞行的控制信息的方式,进行控制模型的学习。
[0016]权利要求7所述的专利技术是根据权利要求6所述的学习装置,其特征在于在:所述高度范围基于通过所述飞机的自上空的非接触传感所获得的传感数据而动态变化。
[0017]权利要求8所述的专利技术是根据权利要求1至7中任一项所述的学习装置,其特征在于:所述奖励指定部根据所述飞机采取所述行动的情况下向所述飞机的累积降水量与对应于所述飞机的防水性能的阈值的关系来指定不同的所述奖励。由此,可以输出即便有降雨的影响也使所述飞机进行不对飞机的防水性能带来障碍的飞行的控制信息的方式,进行控制模型的学习。
[0018]权利要求9所述的专利技术是根据权利要求1至8中任一项所述的学习装置,其特征在于:所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的电池的剩余电量或所述电池的消耗电量来指定不同的所述奖励。由此,可以输出即便有气象的影响也使所述飞机进行减少电池的消耗电量的飞行的控制信息的方式,进行控制模型的学习。
[0019]权利要求10所述的专利技术是根据权利要求1至9中任一项所述的学习装置,其特征在于:所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机周边环境的地表属性来指定不同的所述奖励。由此,可以输出即便有气象的影响也使所述飞机进行对应于地表属性的飞行的控制信息的方式,进行控制模型的学习。
[0020]权利要求11所述的专利技术是根据权利要求1至10中任一项所述的学习装置,其特征在于:所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的移动状态来指定不同的所述奖励。由此,可以输出即便有气象的影响也使所述飞机进行更有效的飞行的控制信息的方式,进行控制模型的学习。
[0021]权利要求12所述的专利技术是权利要求1至11中任一项所述的学习装置,其特征在于:所述气象信息包含关于风的风信息。
[0022]权利要求13所述的专利技术是根据权利要求12所述的学习装置,其特征在于:所述风信息包含关于风速、风向、有无风、有无强风、台风及龙卷风中的至少任一者的信息。
[0023]权利要求14所述的专利技术是一种完成学习的控制模型,其特征在于:输入包含可无人飞行的飞机的周边环境与所述飞机的预定飞行区域的环境的至少任一环境的气象信息的环境信息,而输出用于进行所述飞机的飞行控制的控制信息,且具备:存储部,其存储通
过进行使用表示所述飞机采取基于所述控制信息的行动的情况下所述飞机的行动结果评价的奖励的强化学习而获得的控制模型;及控制信息取得部,其通过将包含所述气象信息的环境信息向所述控制模型输入而取得从所述控制模型输出的所述控制信息。
[0024]权利要求15所述的专利技术是根据权利要求14所述的信息处理装置,其特征在于:进而具备基于所述控制信息而进行所述飞机的飞行控制的飞行控制部。
[0025]权利要求16所述的专利技术是一种完成学习的控制模型,用于使电脑以基于与可无人飞行的飞机的周边环境及所述飞机的预定飞行区域的环境的至少任一环境相关的环境信息,而输出用于进行所述飞机的飞行控制的控制信息的方式发挥功能,且所述环境信息包含所述飞机的周边环境、或所述飞机的预定飞行区域环境的气象信息,按时间顺序向所述控制模型输入,所述控制模型使用表示所述飞机采取基于从所述控制模型输出的所述控制信息的所述行动的情况下所述飞机的行动结果评价的奖励来强化学习,且使电脑以对所述输入的所述环境信息进行基于构成所述控制模型的函数的运算而从所述控制模型输出所述控制信息的方式发挥功能。
[0026][专利技术的效果][0027]根据本专利技术,可获得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种学习装置,其特征在于,进行输出控制信息的控制模型的强化学习,该控制信息用于进行可无人飞行的飞机的飞行控制,且所述学习装置具备:环境信息取得部,取得包含所述飞机的周边环境与所述飞机的预定飞行区域的环境的至少任一环境的气象信息的环境信息;控制信息取得部,通过向所述控制模型输入所述环境信息而取得从所述控制模型输出的所述控制信息;奖励指定部,指定表示所述飞机采取基于所述控制信息的行动的情况下所述行动的结果评价的奖励;及学习控制部,使用利用所述奖励指定部指定的所述奖励来控制所述控制模型的强化学习。2.根据权利要求1所述的学习装置,其特征在于,所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的姿态来指定不同的所述奖励。3.根据权利要求1或2所述的学习装置,其特征在于,所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的飞行稳定性来指定不同的所述奖励。4.根据权利要求3所述的学习装置,其特征在于,基于所述飞机的振动来评价所述飞行稳定性。5.根据权利要求1至4中任一项所述的学习装置,其特征在于,所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的高度来指定不同的所述奖励。6.根据权利要求1至5中任一项所述的学习装置,其特征在于,所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的高度是否包含于指定的高度范围内来指定不同的所述奖励。7.根据权利要求6所述的学习装置,其特征在于,所述高度范围基于通过所述飞机自上空进行非接触传感所获得的传感数据而动态变化。8.根据权利要求1至7中任一项所述的学习装置,其特征在于,所述奖励指定部根据所述飞机采取所述行动的情况下向所述飞机的累积降水量与对应于所述飞机的防水性能的阈值的关系来指定不同的所述奖励。9.根据权利要求1至8中任一项所述的学习装置,其特征在于,所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的电池剩余电量或所述电池消耗电量来指定不同的所述奖励。10.根据权利...

【专利技术属性】
技术研发人员:中泽满滝泽顺
申请(专利权)人:乐天集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1