【技术实现步骤摘要】
【国外来华专利技术】信息处理设备和信息处理方法
本公开涉及一种信息处理设备和信息处理方法。
技术介绍
最近,已经开发了各种利用机器学习技术的设备。上述设备的示例包括各种操作体,每个操作体基于通过强化学习获得的动作值,执行自动操作。此外,积极研究提高强化学习的性能和效率的技术。例如,非专利文献1公开了一种基于强化学习的目的以分割方式学习动作值并将所获得的动作值之和用作确定性动作值的技术。引文列表专利文献专利文献1:HarmvanSeijen和其他五个人,"用于强化学习的混合奖励架构(HybridRewardArchitectureforReinforcementLearning)",2017年6月13日,[在线],[2018年3月21日搜索],因特网<https://arxiv.org/pdf/1706.04208.pdf>
技术实现思路
技术问题然而,利用非专利文献1中公开的技术,由于上述总和中的比率是恒定的,因此难以在目的改变时灵活地改变操作体的行为。因此,本公开提供了新 ...
【技术保护点】
1.一种信息处理设备,包括动作值计算单元,所述动作值计算单元配置为计算确定操作单元的行为的动作值,其中/n基于所获取的目的改变因素和基于彼此不同的奖励而学习的多个第一动作值,所述动作值计算单元动态地计算要输入到所述操作单元的第二动作值。/n
【技术特征摘要】
【国外来华专利技术】20180326 JP 2018-0578981.一种信息处理设备,包括动作值计算单元,所述动作值计算单元配置为计算确定操作单元的行为的动作值,其中
基于所获取的目的改变因素和基于彼此不同的奖励而学习的多个第一动作值,所述动作值计算单元动态地计算要输入到所述操作单元的第二动作值。
2.根据权利要求1所述的信息处理设备,其中,所述动作值计算单元根据基于所述目的改变因素确定的比率,动态地计算多个所述第二动作值。
3.根据权利要求1所述的信息处理设备,其中,根据基于所述目的改变因素确定的各所述第一动作值的权重,所述动作值计算单元通过将多个所述第一动作值求和来动态地计算所述第二动作值。
4.根据权利要求1所述的信息处理设备,其中,所述目的改变因素包括由用户提供的目的改变指令。
5.根据权利要求1所述的信息处理设备,其中,所述目的改变因素包括所述操作单元的操作环境中的改变。
6.根据权利要求5所述的信息处理设备,其中,所述目的改变因素包括所述操作环境与从上下文中估计的预定环境匹配。
7.根据权利要求5所述的信息处理设备,其中,所述目的改变因素包括所述操作环境与用户设置目的操作的预定环境匹配。
8.根据权利要求1所述的信息处理设备,进一步包括操作单元,所述操作单元配置为基于所述第二动作值和所估计的操作环境,动态地改变行为。
9.根据权利要求8所述的信息处理设备,其中,当所述第二动作值基于所述目的改变因素改变时,所述操作单元向用户通知与所述目的改变因素和基于所述第二动作值而改变的行为相关的信息。
10.根据权利要求1所述的信息处理设备,进一步包括比率计算单元,所述比率计算单元配置为基于所获取的目的改变因素,计算用于计算所述第二动作值的比率。
11.一种信息处理设备,包括反馈单元,所述反馈单元配置为:针对操作单元的操作,确定与多个动作值相关的过量和不足并且控制与所述过量和所述不足相关的信息通知,其中,所述操作单元根据基于彼此不同的奖励而学习的多个动作值来执行动态行为。
12.根据权利要求11所述的信息处理设备,其中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。