【技术实现步骤摘要】
【国外来华专利技术】学习装置和学习方法
本公开内容涉及学习装置和学习方法,并且具体地涉及允许基于用户输入来容易地校正强化学习模型的学习装置和学习方法。
技术介绍
存在强化学习模型,其当给出代理体(agent)、环境、行动和报酬时学习用于最大化报酬的策略(例如,参见NPL1)。[引用列表][非专利文献][NPL1]“MaximumEntropyInverseReinforcementLearning”,BrianD.Ziebart,AndrewMaas,J.AndrewBagnell,andAnindK.Dey,theAssociationfortheAdvancementofArtificialIntelligence(AAAI),2008.7.13
技术实现思路
[技术问题]然而,尚未设计出基于用户输入容易地校正强化学习模型。鉴于前述情况提出了本公开内容,并且本公开内容允许基于用户输入来容易地校正强化学习模型。[问题的解决方案]根据本公开内容的一个方面的学习装置包括:显示控制部,被配置成使显示部显示关于强化学习模型的强化学习模型信息;以及校正部,被配置成基于对强化学习模型信息的用户输入 ...
【技术保护点】
1.一种学习装置,包括:显示控制部,被配置成使显示部显示关于强化学习模型的强化学习模型信息;以及校正部,被配置成基于对所述强化学习模型信息的用户输入来校正所述强化学习模型。
【技术特征摘要】
【国外来华专利技术】2016.12.26 JP 2016-2519011.一种学习装置,包括:显示控制部,被配置成使显示部显示关于强化学习模型的强化学习模型信息;以及校正部,被配置成基于对所述强化学习模型信息的用户输入来校正所述强化学习模型。2.根据权利要求1所述的学习装置,其中,所述强化学习模型信息包括指示由所述强化学习模型学习到的策略的策略信息。3.根据权利要求1所述的学习装置,其中,所述强化学习模型信息包括指示所述强化学习模型中所使用的报酬函数的报酬函数信息。4.根据权利要求1所述的学习装置,其中,所述用户输入包括策略的教导。5.根据权利要求4所述的学习装置,其中,在通过追加所述强化学习模型中所使用的报酬函数的基函数来改进目标函数的情况下,所...
【专利技术属性】
技术研发人员:中田健人,成平拓也,铃木洋贵,大里章人,
申请(专利权)人:索尼公司,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。