学习装置和学习方法制造方法及图纸

技术编号：21781277 阅读：40 留言：0更新日期：2019-08-04 00:32

本公开内容涉及一种学习装置和学习方法，利用所述学习装置和学习方法可以基于用户输入来容易地校正强化学习模型。显示控制部使显示部显示与强化学习模型相关的强化学习模型信息。校正部基于来自用户的关于强化学习模型信息的输入来校正强化学习模型。本公开内容可以应用于例如个人计算机PC，其基于来自用户的输入来校正强化学习模型并且通过强化学习、使用经校正的强化学习模型来学习代理体的移动策略。

Learning devices and learning methods

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】学习装置和学习方法
本公开内容涉及学习装置和学习方法，并且具体地涉及允许基于用户输入来容易地校正强化学习模型的学习装置和学习方法。
技术介绍
存在强化学习模型，其当给出代理体(agent)、环境、行动和报酬时学习用于最大化报酬的策略(例如，参见NPL1)。[引用列表][非专利文献][NPL1]“MaximumEntropyInverseReinforcementLearning”，BrianD.Ziebart，AndrewMaas，J.AndrewBagnell，andAnindK.Dey，theAssociationfortheAdvancementofArtificialIntelligence(AAAI)，2008.7.13
技术实现思路
[技术问题]然而，尚未设计出基于用户输入容易地校正强化学习模型。鉴于前述情况提出了本公开内容，并且本公开内容允许基于用户输入来容易地校正强化学习模型。[问题的解决方案]根据本公开内容的一个方面的学习装置包括：显示控制部，被配置成使显示部显示关于强化学习模型的强化学习模型信息；以及校正部，被配置成基于对强化学习模型信息的用户输入...

【技术保护点】
1.一种学习装置，包括：显示控制部，被配置成使显示部显示关于强化学习模型的强化学习模型信息；以及校正部，被配置成基于对所述强化学习模型信息的用户输入来校正所述强化学习模型。

【技术特征摘要】
【国外来华专利技术】2016.12.26 JP 2016-2519011.一种学习装置，包括：显示控制部，被配置成使显示部显示关于强化学习模型的强化学习模型信息；以及校正部，被配置成基于对所述强化学习模型信息的用户输入来校正所述强化学习模型。2.根据权利要求1所述的学习装置，其中，所述强化学习模型信息包括指示由所述强化学习模型学习到的策略的策略信息。3.根据权利要求1所述的学习装置，其中，所述强化学习模型信息包括指示所述强化学习模型中所使用的报酬函数的报酬函数信息。4.根据权利要求1所述的学习装置，其中，所述用户输入包括策略的教导。5.根据权利要求4所述的学习装置，其中，在通过追加所述强化学习模型中所使用的报酬函数的基函数来改进目标函数的情况下，所...

【专利技术属性】
技术研发人员：中田健人，成平拓也，铃木洋贵，大里章人，
申请(专利权)人：索尼公司，
类型：发明
国别省市：日本,JP

全部详细技术资料下载我是这个专利的主人