【技术实现步骤摘要】
车辆用控制装置、车辆用控制系统、车辆用学习装置及车辆用学习方法
[0001]本专利技术涉及车辆用控制装置、车辆用控制系统、车辆用学习装置以及车辆用学习方法。
技术介绍
[0002]例如,在下述日本特开2000
‑
250602中,记载有通过强化学习来决定与车辆的状态相应的适当的变速比。
技术实现思路
[0003]专利技术者研究了通过强化学习来学习用于变速比的切换的操作量。但是,在即使学习进展也无法缩小搜索范围的情况下,直至搜索到最佳值为止的时间有可能会变长。
[0004]本专利技术的第一方式提供一种车辆用控制装置,具备执行装置以及存储装置,在所述存储装置中存储有关系规定数据,该关系规定数据用于规定车辆的状态与行动变量的关系,所述行动变量是与搭载于所述车辆的变速装置的操作有关的变量,所述执行装置构成为执行:获取处理,获取基于传感器的检测值的所述车辆的状态;操作处理,基于根据通过所述获取处理而获取到的所述车辆的状态和所述关系规定数据确定的所述行动变量的值来操作所述变速装置;报酬计算处理,根 ...
【技术保护点】
【技术特征摘要】
1.一种车辆用控制装置,其特征在于,所述车辆用控制装置具备执行装置和存储装置,在所述存储装置中,存储有关系规定数据,该关系规定数据用于规定车辆的状态与行动变量的关系,所述行动变量是与搭载于所述车辆的变速装置的操作有关的变量,所述执行装置构成为执行:获取处理,获取基于传感器的检测值的所述车辆的状态;操作处理,基于根据通过所述获取处理而获取到的所述车辆的状态和所述关系规定数据确定的所述行动变量的值来操作所述变速装置;报酬计算处理,根据通过所述获取处理而获取到的所述车辆的状态,在所述车辆的特性满足基准的情况下,提供比所述车辆的特性不满足基准的情况大的报酬;更新处理,将通过所述获取处理而获取到的所述车辆的状态、在所述变速装置的操作中利用的所述行动变量的值以及与该操作对应的所述报酬作为向预先决定的更新映射的输入,更新所述关系规定数据;计数处理,对基于所述更新处理的更新次数进行计数;以及限制处理,在所述更新次数大的情况下,与所述更新次数小的情况相比,将所述关系规定数据所表示的所述行动变量的值中的除了使关于所述报酬的期待收益最大化的值以外的值被所述操作处理采用的范围限制在缩小的一侧,所述执行装置构成为根据更新映射,输出以使依照所述关系规定数据而操作所述变速装置的情况下的所述期待收益增加的方式更新后的所述关系规定数据。2.根据权利要求1所述的车辆用控制装置,其特征在于,所述限制处理包括:在所述更新次数大的情况下,与所述更新次数小的情况相比,将基于所述更新处理的更新量限制在小的一侧的处理。3.根据权利要求1或者2所述的车辆用控制装置,其特征在于,所述报酬计算处理包括:在变速比的切换期间中的发热量小的情况下提供比变速比的切换期间中的发热量大的情况大的报酬的处理和即使是相同的发热量也根据变速的种类来变更所提供的报酬的大小的处理。4.根据权利要求1~3中的任意一项所述的车辆用控制装置,其特征在于,所述报酬计算处理包括:在作为变速比的切换所需的时间的变速时间小的情况下提供比所述变速时间大的情况大的报酬的处理和即使是相同的变速时间也根据变速的种类来变更所提供的报酬的大小的处理。5.根据权利要求1~4中的任意一项...
【专利技术属性】
技术研发人员:樗泽英明,田端淳,奥田弘一,今村健,藤井广太,佐佐木启太,
申请(专利权)人:丰田自动车株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。