基于分布式系统的强化学习方法、装置、系统及存储介质制造方法及图纸

技术编号:31450838 阅读:29 留言:0更新日期:2021-12-18 11:13
本发明专利技术公开了一种基于分布式系统的强化学习方法、装置、系统及存储介质,所述分布式系统包含训练端、评估端、数据库和多个学习端,所述方法包括:基于多个学习端分别对训练样本进行处理,生成多份样本数据分别广播到数据库;在训练端接收到数据库广播的多份样本数据后,训练端对多份样本数据进行强化学习,生成训练参数广播到数据库;在评估端接收到数据库广播的训练参数后,评估端对训练参数进行评估,并在训练参数的评估通过后,完成训练端的强化学习。本发明专利技术通过分布式系统进行强化学习,由数据库实现各种资源的并行调度和处理,可快速产生大量的样本数据进行学习训练,经学习训练所得到的结果准确性高,且提升了强化学习的效率。率。率。

【技术实现步骤摘要】
基于分布式系统的强化学习方法、装置、系统及存储介质


[0001]本专利技术涉及互联网
,尤其涉及一种基于分布式系统的强化学习方法、装置、系统及存储介质。

技术介绍

[0002]强化学习(reinforcement learning),是一种重要的机器学习方法,用于解决如何做出最优决策的问题;广泛应用于机器人控制领域、博弈论领域、自动驾驶领域等。
[0003]当前的强化学习通常通过单台计算机等终端设备产生样本数据进行训练,但受单台终端设备内存资源以及处理速度等因素的限制,产生样本数据的数量有限,且产生的速率慢。其中,样本数据的多少与强化学习结果的准确性相关,样本数据越少则用于训练的样本少,结果的准确性越低;而速率的快慢则与强化学习的效率相关,速率越慢则收敛速度越慢,学习的效率越低。因此,当前强化学习所存在的结果准确性低和训练效率低的问题时亟待解决的技术问题。

技术实现思路

[0004]本专利技术的主要目的在于提供一种基于分布式系统的强化学习方法、装置、系统及存储介质,旨在解决现有技术中强化学习所存在的结果准确性低和训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分布式系统的强化学习方法,其特征在于,所述分布式系统包含训练端、评估端、数据库和多个学习端,所述基于分布式系统的强化学习方法包括以下步骤:基于多个学习端分别对训练样本进行处理,生成多份样本数据,并将多份所述样本数据分别广播到所述数据库;在所述训练端接收到所述数据库广播的多份所述样本数据后,所述训练端对多份所述样本数据进行强化学习,生成训练参数广播到所述数据库;在所述评估端接收到所述数据库广播的所述训练参数后,所述评估端对所述训练参数进行评估,并在所述训练参数的评估通过后,完成所述训练端的强化学习。2.如权利要求1所述的基于分布式系统的强化学习方法,其特征在于,所述评估端对所述训练参数进行评估的步骤包括:所述评估端基于预设评估策略,对所述训练参数进行计算,生成回报值,并判断所述回报值是否大于预设阈值;若所述回报值大于预设阈值,则判定对所述训练参数的评估通过。3.如权利要求2所述的基于分布式系统的强化学习方法,其特征在于,所述判断所述回报值是否大于预设阈值的步骤之后包括:若所述回报值小于或等于预设阈值,则多个所述学习端基于所述训练参数,执行分别对训练样本进行处理,生成多份样本数据的步骤。4.如权利要求2所述的基于分布式系统的强化学习方法,其特征在于,所述训练端的数量为多个,所述评估端基于预设评估策略,对所述训练参数进行计算,生成回报值的步骤包括:所述评估端基于预设评估策略,对与多个所述训练端分别对应的训练参数进行计算,生成与多个所述训练端分别对应的中间回报值;将多个所述中间回报值进行对比,确定各所述中间回报值中数值最大的中间回报值,并将数值最大的中间回报值作为所述回报值。5.如权利要求1所述的基于分布式系统的强化学习方法,其特征在于,所述生成训练参数广播到所述数据库的步骤之后包括:所述数据库基于消息队列方式将所述训练参数分别广播到所述评估端和多个所述学习端。6.如权利要求5所...

【专利技术属性】
技术研发人员:李珂
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1