用于增强学习模型的状态模拟器制造技术

技术编号:33121837 阅读:23 留言:0更新日期:2022-04-17 00:23
公开了一种用于为增强模型生成数据集的方法、装置和产品。所述方法包括:获得所述特征集合的多个不同子集;使用马尔可夫决策过程来为每个特征子集确定策略;获得包括对所述特征集合中的每个特征的评估的状态;基于所述状态到不同特征子集上的不同投影,对所述状态应用所述多个策略,由此为所述状态获得多个建议动作;基于所述多个建议动作来为所述状态确定一个或多个动作及其对应分数;以及使用所述状态以及所述一个或多个动作及其对应分数来训练增强学习模型。增强学习模型。

【技术实现步骤摘要】
【国外来华专利技术】用于增强学习模型的状态模拟器


[0001]本公开总体上涉及强化学习模型,并且具体涉及为其生成训练数据集。

技术介绍

[0002]强化学习可以是机器学习的领域,其涉及软件代理应当如何在环境中采取动作以便使累积奖励的某个概念最大化。增强学习可以是除了受监督学习和无监督学习之外的三个机器学习范例中的一个。增强学习可以不同于受监督学习,因为不需要呈现标记的输入/输出对,并且不需要明确地校正次优动作。相反,焦点是在(未探索的领域的)探索与(当前知识的)探索之间找到平衡。
[0003]增强算法可以结合深度学习以便实现诸如击败Go游戏中的人类世界冠军以及玩许多Atari视频游戏的人类专家之类的进步。
[0004]所公开的主题所解决的技术问题是获得足够大以用于训练深度增强学习(DRL)模型的数据集。在一些示例性实施例中,可以在数据集上应用马尔可夫决策过程(MDP)以便确定针对每个状态的策略,该策略可以用于训练DRL。然而,在数据集相对较大(诸如由具有数百万个状态的超过200个特征定义)的情况下,MDP可能不实用。在一些示例性实施例中,在数据集上施加MDP可能是耗时的。附加地或可替代地,在数据集上应用MDP可消耗计算资源。在一些情况下,将MDP应用于常用硬件上可为不切实际的。
[0005]所公开的主题所处理的另一技术问题是可能期望基于包括状态的大数据集来训练DRL。一旦被训练,DRL模型可以被利用以便为可以在生产环境中获得的状态提供动作。在一些情况下,DRL可以为状态提供动作。然而,为了使DRL为生产状态提供动作,初始数据集可能需要非常大,诸如包括至少1百万个状态、5百万个状态等。在一些使用情况下,获得足够大的数据集可能是不可行的。除此之外或作为另外一种选择,获得足够大的数据集可消耗大量资源并且可阻止DRL模型在生产环境中的使用,直到此类模型成熟为止,这可花费太多时间。作为示例,在诸如棋子或Go的棋盘游戏的情况下,可以配置计算机来玩整组可能的棋盘。然而,在现实生活系统(诸如推荐系统、机器人训练器等)中,可能的理论状态的大小对于计算机而言或者对于若干计算机而言可能太大而不能确定足够大的数据集。
[0006]所公开的主题所解决的又一技术问题是提供一种推荐系统。推荐系统可被配置为基于用户的当前状态和基于上下文为用户推荐动作。在一些示例性实施例中,上下文可以包括用户外部的对象的状态。附加地或可替代地,上下文可以包括在用户外部并且影响他的条件、约束等。作为示例,用户的状态可以是用户在旅行中,寻找关于要去的地点的推荐。附加地或可替代地,用户的状态可以包括他的位置、用户愿意花费的钱数、购买历史、当前时间、一天中的当前时间、一周中的当前时间、天气条件、兴趣点的开业时间等。动作可以是去博物馆、去公园、去购物等。附加地或可替代地,动作可以是从许多物品的库存购买特定物品。
[0007]所公开的主题所解决的又一技术问题是缩放MDP的执行。在一些示例性实施例中,可能期望执行MDP,或找到可在一个以上机器上缩放的MDP的替代方案。此类缩放可减少MDP
的计算时间且可加速为了使用MDP为RDL准备训练数据集所需的时间。
[0008]因此,在本领域中需要解决上述问题。

技术实现思路

[0009]从第一方面来看,本专利技术提供一种方法,其包括:确定多个特征子集,每个特征子集是特征集合的子集,由此获得所述特征集合的多个不同子集;为所述多个特征子集中的每个特征子集确定策略,其中所述策略是基于所述特征子集的评估来定义动作的函数,其中使用马尔可夫决策过程(MDP)来确定所述策略,由此获得多个策略;获得状态,其中所述状态包括所述特征集合中的每一特征的评估;基于所述状态到不同特征子集上的不同投影,对所述状态应用所述多个策略,由此获得针对所述状态的多个建议动作;基于所述多个建议动作,为所述状态确定一个或多个动作及其对应分数;以及使用所述状态和所述一个或多个动作及其对应分数来训练强化学习模型。
[0010]从另一方面来看,本专利技术提供了一种用于生成训练数据集的计算机程序产品,所述计算机程序产品包括:计算机可读存储介质,所述计算机可读存储介质可由处理电路读取并且存储用于由所述处理电路执行以执行用于执行本专利技术的步骤的方法的指令。
[0011]从另一方面来看,本专利技术提供一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序,该计算机程序包括当所述程序在计算机上运行时用于执行本专利技术的步骤的软件代码部分。
[0012]从另一方面来看,本专利技术提供一种具有处理器和耦合的存储器的计算机化装置,所述处理器适于执行以下步骤:确定多个特征子集,每个特征子集是特征集合的子集,由此获得所述特征集合的多个不同子集;为所述多个特征子集中的每个特征子集确定策略,其中所述策略是基于所述特征子集的评估来定义动作的函数,其中使用马尔可夫决策过程(MDP)来确定所述策略,由此获得多个策略;获得状态,其中所述状态包括所述特征集合中的每一特征的评估;基于所述状态到不同特征子集上的不同投影,对所述状态应用所述多个策略,由此获得针对所述状态的多个建议动作;基于所述多个建议动作,为所述状态确定一个或多个动作及其对应分数;以及使用所述状态和所述一个或多个动作及其对应分数来训练强化学习模型。
[0013]从又一方面来看,本专利技术提供一种计算机程序产品,其包括保留程序指令的非暂时性计算机可读存储介质,所述程序指令在由处理器读取时使所述处理器执行:确定多个特征子集,每个特征子集是特征集合的子集,由此获得所述特征集合的多个不同子集;为所述多个特征子集中的每个特征子集确定策略,其中所述策略是基于所述特征子集的评估来定义动作的函数,其中使用马尔可夫决策过程(MDP)来确定所述策略,由此获得多个策略;获得状态,其中所述状态包括所述特征集合中的每一特征的评估;基于所述状态到不同特征子集上的不同投影,对所述状态应用所述多个策略,由此获得针对所述状态的多个建议动作;基于所述多个建议动作,为所述状态确定一个或多个动作及其对应分数;以及使用所述状态和所述一个或多个动作及其对应分数来训练强化学习模型。
[0014]所公开的主题的一个示例性实施例为一种方法,其包括:确定多个特征子集,每个特征子集是特征集合的子集,由此获得所述特征集合的多个不同子集;为所述多个特征子集中的每个特征子集确定策略,其中所述策略是基于所述特征子集的评估来定义动作的函
数,其中使用马尔可夫决策过程(MDP)来确定所述策略,由此获得多个策略;获得状态,其中所述状态包括所述特征集合中的每一特征的评估;基于所述状态到不同特征子集上的不同投影,对所述状态应用所述多个策略,由此获得针对所述状态的多个建议动作;基于所述多个建议动作,为所述状态确定一个或多个动作及其对应分数;以及使用所述状态和所述一个或多个动作及其对应分数来训练强化学习模型。
[0015]所公开的主题的又一个示例性实施例为一种计算机程序产品,所述计算机程序产品包括保留程序指令的非暂时性计算机可读存储媒体,所述程序指令在由处理器读取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成训练数据集的方法,所述方法包括:确定多个特征子集,每个特征子集是特征集合的子集,由此获得所述特征集合的多个不同子集;为所述多个特征子集中的每个特征子集确定策略,其中所述策略是基于所述特征子集的评估来定义动作的函数,其中使用马尔可夫决策过程(MDP)来确定所述策略,由此获得多个策略;获得状态,其中所述状态包括所述特征集合中的每一特征的评估;基于所述状态到不同特征子集上的不同投影,对所述状态应用所述多个策略,由此获得针对所述状态的多个建议动作;基于所述多个建议动作,为所述状态确定一个或多个动作及其对应分数;以及使用所述状态和所述一个或多个动作及其对应分数来训练强化学习模型。2.如权利要求1所述的方法,其中所述获得所述状态包括通过产生所述特征集合的至少一部分的评估来产生所述状态。3.如前述权利要求中的任一项所述的方法,其中针对训练数据集中的不同状态,多次执行所述获得所述状态和所述为所述状态确定,其中使用所述训练数据集执行所述训练。4.如前述权利要求中的任一项所述的方法,其中所述为所述状态确定所述一个或多个动作及其对应分数包括:基于所述多个建议动作确定动作的频率,其中基于所述频率确定所述动作的对应分数。5.如权利要求4所述的方法,其中使用所述一个或多个动作的一部分执行所述训练,所述一个或多个动作中的每个动作具有高于阈值的对应频率。6.如前述权利要求中的任一项所述的方法,其中所述强化学习模型是深度强化学习模型。7.如前述权利要求中的任一项所述的方法,进一步包括:获得新状态;以及应用所述强化学习模型以为所述新状态确定动作。8.如权利要求7所述的方法,其中所述应用所述强化学习模型是在不咨询所述多个策略的情况下执行的。9.如前述权利要求中的任一项所述的方法,其中所述确定所述多个...

【专利技术属性】
技术研发人员:M
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1