机械的自动驾驶控制方法以及系统技术方案

技术编号:26064067 阅读:36 留言:0更新日期:2020-10-28 16:36
本发明专利技术提供机械的自动驾驶控制方法以及系统。通过去除基于数学地描述的函数的拟合的过学习的影响来削减实机与仿真的误差,以此将机械的自动驾驶控制最优化。控制机械的自动驾驶的自动驾驶控制系统设定第1模型,其基于数学地描述的函数来表示输入到所述机械的控制信号串与从遵循该控制信号串而控制的所述机械输出的数据的关系。系统在包含学习机械的自动驾驶控制的学习处理中,直到满足第1条件为止使用第1模型来执行学习,在满足第1条件以后,直到意味着过学习的第2条件得以满足为止,或直到该第2条件未得到满足而结束学习为止,使用使第1模型变化1次以上后的模型即第2模型来执行学习。

【技术实现步骤摘要】
机械的自动驾驶控制方法以及系统
本专利技术总体涉及机械的自动驾驶控制。
技术介绍
大型工业机械等机械的自动驾驶控制进行以下操作:使用模仿实机的仿真,来寻找最优的自动驾驶控制方法,通过实机验证仿真上实现的自动驾驶控制。作为寻找该最优控制的方法,能举出最优化计算、强化学习等。作为大型工业机械的示例而有桥式起重机,在专利文献1中举出桥式起重机的自动驾驶控制的示例。根据专利文献1,进行以下操作:对某特定的搬运使用物理模型的搬运仿真,生成自动驾驶控制步骤,使得运送物不会摇晃。但由于实机与仿真间的误差,实机会进行与仿真不同的行动,难以得到希望的结果。因此,实机中的调整变得不可欠缺,但由于频繁使用大型工业机械的实机来进行实验则负担较大,因此较为困难。为了避免该问题,如专利文献2中所举出的那样,考虑生成仿真,使其接近实机。现有技术文献专利文献专利文献1:JP特开2007-161393号公报专利文献2:JP特开2004-178247号公报在桥式起重机中,考虑根据某标准的控制信号串的真实数据来生成专利文献2那样的精致的仿真,但为了对实机与仿真之间进行填补,进行基于数学地描述的函数的拟合(合わせ込み)。已知的是,在该拟合中,由于实机的数据不足、没有重现性,会进行过学习。在仿真进行了过学习的情况下,仿真强烈依赖于生成拟合仿真时的控制信号串、运送距离、运送物的重量、进行实机验证的环境等参数。因此,在控制信号串、运送距离、环境这样的参数发生变化时,仿真的结果较大变动,存在仿真与实机间的误差变大的问题。因此,出现了以下问题:在进行了拟合的控制的环境以外,实现不了自动驾驶控制。另外,在自动驾驶控制的控制信号串的搜索中使用强化学习的情况下,在进行了过学习的仿真中,存在强化学习中得到的报酬较大变动,学习推进不了的问题。因此,在实现基于强化学习的自动驾驶控制时,需要防止在生成控制信号串时所用的仿真中包含过学习的影响。基于数学地描述的函数的拟合的过学习的影响对于在自动驾驶控制的控制信号串的搜索中使用强化学习以外的学习的情况也会成为问题。
技术实现思路
因此,在本专利技术中,目的在于,通过去除基于数学地描述的函数的拟合的过学习的影响来削减实机与仿真的误差,由此将机械的自动驾驶控制最优化。用于解决课题的手段对机械的自动驾驶进行控制的自动驾驶控制系统设定第1模型,该第1模型基于数学地描述的函数来表示输入到所述机械的控制信号串与从遵循该控制信号串而控制的所述机械输出的数据的关系。系统在包含学习机械的自动驾驶控制的学习处理中,直到满足第1条件为止使用第1模型来执行学习,在满足第1条件以后,直到意味着过学习的第2条件得以满足为止,或直到该第2条件未得到满足而结束学习为止,使用使第1模型变化1次以上后的模型即第2模型来执行学习。专利技术的效果根据本专利技术,通过去除基于数学地描述的函数的拟合的过学习的影响来削减实机与仿真的误差,以此能使机械的自动驾驶控制最优化。附图说明图1是表示自动驾驶控制的概要的一例的示意图。图2是表示“系统”008的结构的一例的框图。图3是表示存放于“数据库”116的数据的一例的框图。图4是“可靠度仿真生成模块”108所执行的处理的一例的流程图。图5是表示“问题设定处理”S301的详细的一例的流程图。图6是表示机械学习的拟合的一例的区域图。图7是表示“学习执行处理”S306的详细的一例的流程图。图8是表示拟合施加的一例的示意图。图9是表示“评价处理”S307的详细的一例的流程图。图10是表示“机械臂台车”901的结构的一例的示意图。图11是表示“机械臂台车”901的进程的一例的示意图。附图标记的说明001...桥式起重机008...系统(自动驾驶控制系统)具体实施方式在以下的说明中,“接口装置”可以是一个以上的接口设备。该一个以上的接口设备可以是下述当中至少一者。·一个以上的I/O(Input/Output)接口设备。I/O(Input/Output)接口设备是针对I/O设备和远程的显示用计算机当中至少一者的接口设备。针对显示用计算机的I/O接口设备可以是通信接口设备。至少一个I/O设备可以是用户接口设备,例如键盘以及指向设备那样的输入设备、和显示设备那样的输出设备当中的任意一者。·一个以上的通信接口设备。一个以上的通信接口设备可以是一个以上的同种的通信接口设备(例如一个以上的NIC(NetworkInterfaceCard,网络接口卡)),也可以是两个以上的异种的通信接口设备(例如NIC和HBA(HostBusAdapter,主机总线适配器))。另外,在以下的说明中,“存储器”是一个以上的存储器设备,典型地是主存储设备。存储器中的至少一个存储器设备可以是易失性存储器设备,也可以是非易失性存储器设备。另外,在以下的说明中,“永久存储装置”是一个以上的永久存储设备。永久存储设备典型地是非易失性的存储设备(例如辅助存储设备),具体地,例如是硬盘驱动器(HDD)或固态硬盘(SSD)。另外,在以下的说明中,“存储装置”可以是存储器和永久存储装置的至少存储器。另外,在以下的说明中,“处理器”是一个以上的处理器设备。至少一个处理器设备典型地是中央处理器(CPU)这样的微处理器设备,但也可以是图形处理器(GPU)这样的其他种类处理器设备。至少一个处理器设备可以是单核,也可以是多核。至少一个处理器设备也可以是处理器核。至少一个处理器设备可以是进行处理的一部分或全部的硬件电路(例如现场可编程门阵列(FPGA)或应用专用集成电路(ASIC))这样的广义的处理器设备。另外,在以下的说明中,以“kkk部”的表现来说明功能,但功能也可以通过由处理器执行一个以上的计算机程序来实现,还可以由一个以上的硬件电路(例如FPGA或ASIC)实现。在通过由处理器执行程序来实现功能的情况下,由于在适当使用存储装置以及/或者接口装置等的同时进行所确定的处理,因此功能可以作为处理器的至少一部分。以功能为主语而说明的处理可以设为处理器或具有该处理器的装置所进行的处理。程序可以从程序源安装。程序源例如可以是程序分发计算机或计算机可读的记录介质(例如非临时的记录介质)。各功能的说明是一例,也可以将多个功能汇总成一个功能,或将一个功能分割成多个功能。以下,使用附图来说明几个实施例。【实施例1】图1是表示实施例1所涉及的自动驾驶控制的概要的一例的图。“桥式起重机”001是自动驾驶控制对象的工业机械的一例。“桥式起重机”001具备能移动的“台车”002、“运送物”003、能卷起的“细绳”004、“能通信的控制装置”005和“传感器”006。“传感器”006测定“台车”002的速度以及位置、“细绳”004的长度和“摇晃角度θ”007。“传感器”006的测定值(本实施例中是本文档来自技高网
...

【技术保护点】
1.一种自动驾驶控制系统,对机械的自动驾驶进行控制,所述自动驾驶控制系统的特征在于,具备:/n问题设定部,其设定第1模型,所述第1模型基于数学地描述的函数来表示输入到所述机械的控制信号串与从遵循该控制信号串而控制的所述机械输出的数据的关系;/n学习执行部,其执行包含学习所述机械的自动驾驶控制的学习处理;和/n驾驶控制部,其通过将遵循所述学习处理的结果的控制信号串输入到所述机械来对所述机械的自动驾驶进行控制,/n所述学习执行部在所述学习处理中,/n直到满足第1条件为止,使用所述第1模型来执行学习,/n在满足所述第1条件以后,直到意味着过学习的第2条件得以满足为止,或直到该第2条件未得到满足而结束学习为止,使用使所述第1模型变化1次以上后的模型即第2模型来执行学习。/n

【技术特征摘要】
20190417 JP 2019-0787371.一种自动驾驶控制系统,对机械的自动驾驶进行控制,所述自动驾驶控制系统的特征在于,具备:
问题设定部,其设定第1模型,所述第1模型基于数学地描述的函数来表示输入到所述机械的控制信号串与从遵循该控制信号串而控制的所述机械输出的数据的关系;
学习执行部,其执行包含学习所述机械的自动驾驶控制的学习处理;和
驾驶控制部,其通过将遵循所述学习处理的结果的控制信号串输入到所述机械来对所述机械的自动驾驶进行控制,
所述学习执行部在所述学习处理中,
直到满足第1条件为止,使用所述第1模型来执行学习,
在满足所述第1条件以后,直到意味着过学习的第2条件得以满足为止,或直到该第2条件未得到满足而结束学习为止,使用使所述第1模型变化1次以上后的模型即第2模型来执行学习。


2.根据权利要求1所述的自动驾驶控制系统,其特征在于,
所述第2模型是作为对所述第1模型施加与所述第1模型不同的数学地描述的第3模型当中的给定比例的第3模型的结果的模型。


3.根据权利要求2所述的自动驾驶控制系统,其特征在于,
所述自动驾驶控制系统具备:
可靠度设定部,其算出第1可靠度,所述第1可靠度基于从被输入第1控制信号串的所述第1模型输出的第1仿真结果数据、与从被输入所述第1控制信号串的所述机械输出的第1真实世界数据的第1误差,
所述给定比例是比算出的所述第1可靠度小的比例。


4.根据权利要求3所述的自动驾驶控制系统,其特征在于,
所述第1条件是基于所述第1可靠度和学习次数的条件。


5.根据权利要求3所述的自动驾驶控制系统,其特征在于,
所述自动驾驶控制系统具备:
施加模型生成部,其生成所述第3模型,所述所述第3模型是拟合所述第1模型以使得所述第1误差收在容许误差范围内的模型。


6.根据权利要求1所述的自动驾驶控制系统,其特征在于,
所述学习执行部在满足所述第2条件的情况下结束所述学习处理。


7.根据权利要求3所述的自动驾驶控制系统,其特征在于,
所述可靠度设定部显示所述第1误差以及所述第1可靠度当中的至少一者,
在针对该显示而接受到学习处理的许可的情况下,所述学习执行部执行所述学习处理。


8.根据权利要求1所述的自动驾驶控制系统,其特征在于,
利用所述第1模型的学习和利用所述第2模型的学习中的任何学习都是强化学习,
所述第2条件是下述当中的至少一者,
·遵循利用所述第2模型的强化学习中得到的报酬的值比遵循利用所述第1模型的强化学习中得到的报酬的值大,
·利用所述第2模型的强化学习中得到的报酬的变动幅度超过利用所述第1模...

【专利技术属性】
技术研发人员:松本杜青工藤文也鲸井俊宏
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1