机器学习模型和设备制造技术

技术编号:38823622 阅读:11 留言:0更新日期:2023-09-15 20:02
提供了用于实现强化学习的方法和设备。一种在客户端节点中根据策略命令环境中的动作的方法包括识别环境的一个或多个临界状态,当前策略针对所述临界状态提供不可靠动作。方法进一步包括向服务器发起重新训练请求的传输,重新训练请求包括与一个或多个临界状态相关的信息。方法进一步包括从服务器接收新策略(其中新策略由服务器基于与一个或多个临界状态相关的信息使用强化学习来生成),以及根据新策略来命令环境中的动作。新策略来命令环境中的动作。新策略来命令环境中的动作。

【技术实现步骤摘要】
【国外来华专利技术】机器学习模型和设备


[0001]本文中描述的实施例与用于实现机器学习模型,特别地用于实现使用强化学习(RL)开发的机器学习模型的方法和设备相关。

技术介绍

[0002]复杂系统(诸如电信网络、车辆交通管理系统等等)的管理是不断增加的挑战。为了应对这个挑战,可以实现使能有效性和自适应性的强化学习(RL)技术。
[0003]RL允许机器学习系统(MLS)通过尝试利用试错法使针对一系列动作的预期累积奖励最大化来学习。RL智能体(也就是,使用RL以便随着时间改进给定任务中的性能的系统)通常与它们用于建模/控制的系统(环境)密切关联,并通过执行改变环境状态的动作的经验来学习。
[0004]图1示意性地说明了典型的RL系统。在图1中示出的架构中,智能体从它正被用于建模/控制的环境接收数据,并将动作传送到所述环境。对于时间t,智能体接收关于环境的当前状态S
t
的信息。智能体然后处理信息S
t
,并生成要采取的动作A
t
。然后将这个动作传送回到环境并使其生效。动作的结果是环境状态随时间的改变,因此在时间t+1,环境状态是S
t+1
。动作还引起(数值的,通常标量的)奖励R
t+1
,所述奖励R
t+1
是引起环境状态S
t+1
的动作A
t
的效果的度量。然后将环境的改变的状态S
t+1
连同奖励R
t+1
从环境传送到智能体。图1示出了奖励R
t
与状态S
t
一起被发送到智能体;奖励R
t
是从在S
t
‑1状态上执行的动作A
t
‑1得到的奖励。当智能体接收到状态信息S
t+1
时,则然后结合奖励R
t+1
处理这个信息,以便确定下一动作A
t+1
等等。由智能体从对智能体可用的动作中选择动作,目的是为了最大化累积奖励。
[0005]对于一些复杂系统,RL技术可以与分布式学习技术有用地组合以提供分布式强化学习(DRL)架构。可以使用集中数据集合在诸如服务器的集中网络节点处训练ML模型。训练的ML模型然后可以用于生成策略,所述策略可以使用参数化函数将观察映射到动作(或动作分布),并且所述策略可以被部署到客户端节点以用于实现。在DRL架构中,集中网络节点和客户端节点可以共同充当ML智能体;集中网络节点和客户端节点一起起作用以使用RL来改进给定任务中的性能。
[0006]RL本身的使用可以在安全性敏感的真实世界应用中引发问题。一般来说,人工智能体可以在模拟环境中通过RL来训练,以找到优化某个目标函数或使系统到预先确定的目的状态的策略。尽管模拟器提供其中RL智能体可以探索其动作并学习的安全训练环境,但不存在模拟中的性能转换成实践中的类似性能的保证。这样的问题的首要原因是缺乏在训练期间观察到的状态分布(也就是,用于训练ML模型的环境状态)等于在生产中观察到的那些状态分布(也就是,针对其实现由ML模型生成的策略的环境状态)的保证;这个问题可以被称为模拟到现实差距。
[0007]当用于训练ML模型的训练分布与其中要部署来自ML模型的策略的生产分布不同时,不可以信任由客户端节点基于策略采取的动作。在将策略应用于与用于训练ML模型的那些环境状态不同的环境状态的情况下,这可能引起不积极影响环境状态的建议动作,并
且可能消极影响环境状态。使用电信网络的示例,将策略应用于与用于训练负责生成所述策略的ML模型的那些网络状态不同的网络状态可能具有消极影响,诸如增加网络拥塞、降低可靠性等等。
[0008]通过直接在真实系统中简单地训练RL智能体,可以规避训练和生产分布之间的差异。然而,对于安全性敏感的应用,在真实系统中的训练通常是不安全的和/或不切实可行的,并且因此很少是可行的选项。相应地,在使用DRL的情况下,确保由客户端节点实现的策略可靠地响应于由客户端节点遇到的环境状态是持续性问题。
[0009]由Tobin,J.等人的“Domain randomization for transferring deep neural networks from simulation to the real world,”(2017IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),Vancouver,BC,2017,pp.23

30,doi:10.1109/IROS.2017.8202133)建议将域随机化作为用于处置一般化问题的选择。来自适当分布的采样模拟器参数可以允许使用更多种类的环境情形来训练ML模型,从而使用能够在生产中的更多种类的环境状态中提供可靠的动作的训练的ML模型来促进策略的准备。给定在训练期间提取的数据,域随机化的一些应用学习参数的后验分布。学习后验分布允许获得将会引起特定数据分布的样本模拟器参数。理想地,将会使训练和生产数据分布更接近的适当模拟器参数将会被采样。

技术实现思路

[0010]本公开的目的是提供至少部分地解决上面讨论的挑战中的一个或多个挑战的方法、设备和计算机可读介质。特别地,本公开的目的是促进RL的实现,所述RL的实现支持在部署客户端节点以后在客户端节点中实现的策略的持续更新。
[0011]本公开提供了一种用于实现RL的客户端节点的操作方法,其中客户端节点根据策略命令环境中的动作。方法包括:识别环境的一个或多个临界状态,当前策略针对所述临界状态提供不可靠动作;以及向服务器发起重新训练请求的传输,其中重新训练请求包括与一个或多个临界状态相关的信息。方法进一步包括从服务器接收新策略,其中新策略由服务器基于与一个或多个临界状态相关的信息使用RL来生成;以及根据新策略命令环境中的动作。通过促进由客户端节点识别临界状态,方法允许客户端节点检测其所依赖的策略何时可能不再可靠。客户端节点还能够向服务器提供允许服务器更新策略的信息;更新的策略然后可以被提供给客户端节点以确保命令可靠的动作。
[0012]在实施例的一些方面,可以基于环境的观察,特别是经由环境与用于生成当前策略的环境状态的比较来识别环境的临界状态。以这种方式,客户端节点可以使用对用于生成当前策略的状态的认知来可靠地识别临界状态。诸如随机网络蒸馏(RND)技术的技术可以特别良好地适合于供比较中使用。
[0013]在实施例的一些方面,客户端节点可以向服务器提供所识别的临界状态的加密样本,或者基于所识别的临界状态的推断的模拟参数。这些选项中的两者可以帮助提供对与临界状态相关的敏感数据的隐私保护。
[0014]实施例的一些方面提供了一种包括用于实现RL的客户端节点和服务器的系统的操作方法。服务器可以从客户端节点接收重新训练请求,如本文中所讨论的;以及可以基于重新训练请求中的与一个或多个临界状态相关的信息,重新训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于实现强化学习RL的客户端节点的操作方法,其中,所述客户端节点根据策略命令环境中的动作,所述方法包括:识别所述环境的一个或多个临界状态,当前策略针对所述临界状态提供不可靠动作;向服务器发起重新训练请求的传输,所述重新训练请求包括与所述一个或多个临界状态相关的信息;从所述服务器接收新策略,其中所述新策略由所述服务器基于与所述一个或多个临界状态相关的所述信息使用RL来生成;以及根据所述新策略命令所述环境中的动作。2.如权利要求1所述的方法,其中,所述环境的临界状态是与用于生成所述当前策略的所述环境状态中的全部环境状态实质上不同的状态。3.如权利要求2所述的方法,其中,所述临界状态的所述识别基于所述环境的观察。4.如权利要求3所述的方法,其中,所述临界状态经由所述环境与用于生成所述当前策略的环境状态的比较来识别。5.如权利要求4所述的方法,其中,在所述比较中使用随机网络蒸馏RND技术。6.如权利要求3至5中任一项所述的方法,其中,所述临界状态的所述识别还基于由所述服务器提供的集中信息。7.如任何前述权利要求所述的方法,其中,所述客户端节点使用状态分类模型来识别所述环境的所述临界状态。8.如权利要求7所述的方法,其中,所述重新训练请求包括所述一个或多个临界状态的样本。9.如权利要求8所述的方法,其中,所述客户端节点在发起所述重新训练请求的传输之前加密所述样本。10.如权利要求1至6中任一项所述的方法,其中,所述客户端节点使用所识别的一个或多个临界状态来推断模拟参数,并且其中所推断的模拟参数被包括在所述重新训练请求中。11.如任何前述权利要求所述的方法,其中,所述当前策略由所述客户端节点从所述服务器接收,或者其中,所述当前策略在连接到所述服务器之前被加载到所述客户端节点上。12.如任何前述权利要求所述的方法,其中,所述环境是电信网络的至少一部分。13.如权利要求12所述的方法,其中,所述电信网络的基站包括所述客户端节点。14.如权利要求12和13中任一项所述的方法,其中,由所述客户端节点命令的所述动作包括以下中的至少一个:分组传输速率的修改;以及延迟分组。15.一种包括用于实现RL的所述客户端节点和所述服务器的系统的操作方法,所述方法包括权利要求1至14中任一项所述的步骤,并且进一步包括由所述服务器执行以下操作:从所述客户端节点接收所述重新训练请求;基于所述重新训练请求中的与所述一个或多个临界状态相关的所述信息,重新训练负责所述当前策略的机器学习系统MLS,以生成所述新策略;以及向所述客户端节点分配由所述MLS生成的所述新策略。16.如权利要求15所述的方法,其中,所述服务器维护状态分类模型,当所述MLS被重新训练时更新所述状态分类模型,并且分配所述更新的状态分类模型和所述新策略。
17.如权利要求15所述的方法,其中,所述重新训练请求中的与所述一个或多个临界状态相关的所述信息包括推断的模拟参数,并且其中,所述服务器使用所述推断的模拟参数重新训练所述MLS。18.如权利要求15至17中任一项所述的方法,其中,分配所述新策略的所述步骤在以下情况下被执行:利用预设周期性;当由所述客户端节点请求时;和/或基于所述服务器和客户端节点的当前状态。19.如权利要求15至18中任一项所述的方法,其中,所述系统包括多个客户端节点,并且其中分配所述新策略的所述步骤包括向所述多个客户端节点中的全部客户端节点分配所述策略。20.如权利要求19所述的方法,其中,所述新策略被同时分配到所述多个客户端节点中的全部客户端节点。21.如权利要求19和20中任一项所述的方法,其中,重新训练所述MLS的所述步骤在已从所述多个客户端节点接收到某个数量的重新训练请求时被执行,并且其中所述重新训练使用来自所述接收到的重新训练请求中的全部重新训练请求的与所述一个或多个临界状态相关的信息。22.如权利要求21所述的方法,其中,所述某个数量是1。23.一种用于实现强化学习RL的客户端节点,其中,所述客户端节点被配置成根据策略命令环境中的动作,所述客户端节点包括处理电路模块和存储器,所述存储器包含能够由所述处理电路模块执行的命令,由此所述客户端节点能够操作用来:识别所述环境的一个或多个临界状态,当前策略针对所述临界状态提供不可靠动作;向服务器发起重新训练请求的传输,所述重新训练请求包括与所述一个或多个临界状态相关的信息;从所述服务器接收新策略,其中所述新策略由所述服务器基于与所述一个或多个临界状态相关的所述信息使用RL来生成;以及根据所述新策略命令所述环境中的动作。24.如权利要求23所述的客户端节点,其中,所述环境的临界状态是与用于生成所述...

【专利技术属性】
技术研发人员:J
申请(专利权)人:瑞典爱立信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1