用于模拟复杂的强化学习环境的系统和方法技术方案

技术编号:21972165 阅读:55 留言:0更新日期:2019-08-28 01:37
公开了一种用于模拟向多个实体分配资源的计算系统。所述计算系统可以被配置为将描述模拟实体的偏好和/或需求的实体简档输入到强化学习代理模型中,并且接收作为强化学习代理模型的输出的分配输出,所述分配输出描述用于所述模拟实体的资源分配。所述计算系统可以基于所述分配输出描述的资源分配来选择一个或多个资源,并提供资源给实体模型,所述实体模型被配置为模拟描述模拟实体的响应的模拟响应输出。所述计算系统可以接收作为实体模型的输出的模拟响应输出,并基于所述模拟响应输出更新描述至少一个资源的资源简档和/或实体简档。

System and Method for Simulating Complex Enhanced Learning Environment

【技术实现步骤摘要】
用于模拟复杂的强化学习环境的系统和方法
本公开一般涉及用于模拟强化学习环境的系统和方法。更具体地,本公开涉及用于模拟系统的系统和方法,其能够测试或以其他方式学习各种不同的强化学习策略或模型。
技术介绍
可以使用各种技术在模拟环境中训练强化学习代理(agent)。通常,强化学习代理基于其对模拟环境的动作被给予奖励。代理随着时间学习策略(policy),目的是最大化其收到的奖励。然而,现实环境通常比目前在强化学习系统中使用的模拟环境更复杂。
技术实现思路
本公开的实施例的方面和优点将部分地在以下描述中阐述,或者可以从描述中学习,或者可以通过实施例的实践来学习。本公开的一个示例方面涉及一种用于模拟向多个实体分配资源的计算系统。计算系统可以包括一个或多个处理器和强化学习代理模型,其被配置为接收描述模拟实体的偏好或需求中的至少一个的实体简档(profile)。响应于接收实体简档,强化学习代理模型可以输出描述多个实体的对模拟实体的资源分配的分配输出。计算系统可以包括被配置为接收描述至少一个资源的数据的实体模型,并且响应于接收描述该至少一个资源的数据,模拟描述模拟实体对描述至少一个资源的数据的响应的模本文档来自技高网...

【技术保护点】
1.一种用于模拟向多个实体分配资源的计算系统,所述计算系统包括:一个或多个处理器;强化学习代理模型,被配置为接收描述模拟实体的偏好或要求中的至少一个的实体简档,并且响应于接收到所述实体简档,输出描述对所述多个实体的所述模拟实体的资源分配的分配输出;实体模型,被配置为接收描述至少一个资源的数据,并且响应于接收描述所述至少一个资源的数据,模拟描述所述模拟实体对描述所述至少一个资源的数据的响应的模拟响应输出;一个或多个共同存储指令的非暂时性计算机可读介质,当由一个或多个处理器运行时,所述指令使所述计算系统执行操作,所述操作包括:将所述实体简档输入到所述强化学习代理模型;接收作为所述强化学习代理模型的...

【技术特征摘要】
2019.02.06 US 62/801,7191.一种用于模拟向多个实体分配资源的计算系统,所述计算系统包括:一个或多个处理器;强化学习代理模型,被配置为接收描述模拟实体的偏好或要求中的至少一个的实体简档,并且响应于接收到所述实体简档,输出描述对所述多个实体的所述模拟实体的资源分配的分配输出;实体模型,被配置为接收描述至少一个资源的数据,并且响应于接收描述所述至少一个资源的数据,模拟描述所述模拟实体对描述所述至少一个资源的数据的响应的模拟响应输出;一个或多个共同存储指令的非暂时性计算机可读介质,当由一个或多个处理器运行时,所述指令使所述计算系统执行操作,所述操作包括:将所述实体简档输入到所述强化学习代理模型;接收作为所述强化学习代理模型的输出的分配输出,所述分配输出描述了对所述模拟实体的资源分配;基于由所述分配输出描述的资源分配,选择要提供给所述实体模型的所述至少一个资源;向所述实体模型提供所述至少一个资源;接收作为所述实体模型的输出的模拟响应输出,所述模拟响应输出描述所述模拟实体对所述至少一个资源的响应;以及基于所述模拟响应输出,更新描述所述至少一个资源的资源简档或实体简档中的至少一个。2.如权利要求1所述的计算系统,其中,所述强化学习代理模型包括强化学习代理,所述强化学习代理基于作为所述模拟响应输出的函数的奖励而被学习。3.如权利要求1所述的计算系统,其中:所述模拟实体包括计算任务或计算任务的源中的至少一个;以及所述至少一个资源包括被配置为运行所述计算任务的工作者。4.如权利要求1所述的计算系统,其中:所述模拟实体包括工业过程;以及所述至少一个资源包括对所述工业过程的输入。5.如权利要求1所述的计算系统,其中,所述模拟实体包括模拟的人类用户,并且所述实体简档包括描述所模拟的人类用户的兴趣或偏好中的至少一个的用户简档。6.如权利要求5所述的计算系统,其中,所述模拟响应输出描述了参与度量,所述参与度量描述所模拟的人类用户对所述至少一个资源的交互时间或评级中的至少一个。7.如权利要求1所述的计算系统,其中,基于所述模拟响应输出来更新所述资源简档或所述实体简档中的至少一个包括提供描述所述模拟响应输出的数据给生成更新的一组用户隐藏状态特征的用户转变模型,并基于所述用户隐藏状态特征更新所述实体配置文件。8.如权利要求1所述的计算系统,其中,所述至少一个资源包括至少一个文档,所述文档包括文本、音频或图形内容中的至少一个。9.如权利要求1所述的计算系统,还包括:资源模型,被配置为接收描述包括所述至少一个资源的多个资源的数据,并且响应于接收描述所述多个资源的数据,输出资源可观察特征,并且其中,所述训练强化学习代理模型至少部分地基于所述资源可观察特征来选择分配输出,并且其中所述操作还包括:将描述所述多个资源的数据输入到所述资源模型中;接收作为所述资源模型的输出的资源可观察特征;以及将所述资源可观察特征输入到所述强化学习代理模型中。10.如权利要求1所述的计算系统,其中:所述至少一个资源包括多个资源项;以及所述模拟响应输出描述了少于所有所述...

【专利技术属性】
技术研发人员:TWE莱SS纳韦卡CE保蒂利尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1