强化学习的策略迁移方法、设备和存储介质技术

技术编号：40139835 阅读：6 留言：0更新日期：2024-01-23 23:26

本申请提供了一种强化学习的策略迁移方法、设备和存储介质，属于机器学习技术领域。方法包括：基于自动驾驶场景的仿真场景，获取多个仿真时刻下的第一样本数据；基于多组第一样本数据，确定第一策略信息和第一预测模型；在任一次迭代过程中，基于本次迭代过程的第一策略信息，获取自动驾驶场景中目标时刻下的第二样本数据，基于第二样本数据更新本次迭代过程的第一预测模型，基于更新后的第一预测模型更新第一策略信息，基于更新后的第一预测模型和第一策略信息执行下一次迭代过程。通过这样的方法将仿真场景下的预测模型和策略信息迁移到自动驾驶场景中，就能够在自动驾驶场景中准确预测自动车要执行的动作，以执行该动作后能够达到更好的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器学习领域，特别涉及一种强化学习的策略迁移方法、设备和存储介质。

技术介绍

1、在机器学习领域，经常将强化学习应用在自动驾驶、智能车间调度等场景中，以基于强化学习进行这些场景下的策略规划，如在自动驾驶场景中，在遇到路口红灯时规划停车；然而强化学习过程中需要经过大量的样本数据训练后，才能对这些场景进行策略规划。

技术实现思路

1、本申请实施例提供了一种强化学习的策略迁移方法、设备和存储介质，能够在自动驾驶场景中准确预测自动车要执行的动作，以使自动车执行该动作后能够达到更好的效果。所述技术方案如下：

2、基于自动驾驶场景的仿真场景，获取多个仿真时刻下的第一样本数据，所述第一样本数据包括在仿真时刻t下自动车的状态、所述自动车所执行的动作、基于所述动作所获得的奖励和在仿真时刻t+1下所述自动车的状态，其中，t为大于或等于0的整数；

3、基于多组第一样本数据，确定第一策略信息和第一预测模型，所述第一策略信息包括所述仿真场景中多种状态各自对应的动作，所述第一预测模型用于预测所述自动车执行动作所获取的奖励和下一时刻的状态；

4、基于所述第一策略信息、所述第一预测模型和所述自动驾驶场景，迭代执行如下步骤，以对所述第一预测模型和所述第一策略信息进行训练，得到目标预测模型和目标策略信息：

5、在任一次迭代过程中，基于本次迭代过程的所述第一策略信息，获取所述自动驾驶场景中目标时刻t’下的第二样本数据，在所述目标时刻t’下的第二样本数据与所述多组

6、所述第二样本数据包括在所述目标时刻t’下所述自动车的状态、所述自动车所执行的动作、基于所述动作所获得的奖励和所述自动车在目标时刻t’+1的状态，其中，t’为大于或等于0的整数，且所述t’为所述t之后的时刻。

7、在一些实施例中，所述第一预测模型包括第一离散预测模型和第一连续预测模型，基于所述多组第一样本数据，确定所述第一预测模型的过程，包括：

8、在所述仿真场景的状态为离散状态且动作为离散动作的情况下，基于所述多组第一样本数据分别对应的仿真时刻t下的状态和动作，得到多个第一类别，基于所述多个第一类别，确定所述第一离散预测模型，所述第一类别中的样本数据包括相同的状态和动作；

9、在所述仿真场景的状态为连续状态且动作为连续动作的情况下，基于所述多组第一样本数据，进行模型训练，得到所述第一连续预测模型。

10、在一些实施例中，任一第一类别对应仿真时刻t下的多种奖励和仿真时刻t+1下的多种状态，所述基于所述多个第一类别，确定所述第一离散预测模型，包括：

11、基于所述多种状态，确定所述第一类别中的第一样本数据的第一状态分布，所述第一状态分布包括所述多种状态分别对应的第一样本数据量与所述第一类别的第一样本数据量的数量比；

12、基于所述多种奖励，确定所述第一类别中的第一样本数据的第一奖励分布，所述第一奖励分布包括所述多种奖励的奖励均值；

13、基于所述多个第一类别分别对应的第一状态分布和第一奖励分布，确定所述第一离散预测模型。

14、在一些实施例中，所述基于所述多组第一样本数据，进行模型训练，得到所述第一连续预测模型，包括：

15、将第一样本数据包括的仿真时刻t下的状态和动作输入初始连续预测模型，得到第一预测状态和第一预测奖励；

16、基于所述第一预测状态和所述第一样本数据包括的所述仿真时刻t+1下的状态，确定第一损失值；

17、基于所述第一预测奖励和所述第一样本数据包括的所述仿真时刻t下的奖励，确定第二损失值；

18、基于所述多组第一样本数据分别对应的第一损失值和第二损失值，迭代调整所述初始连续预测模型的模型参数，直到基于所述初始连续预测模型输出的样本数据与所述仿真时刻t下的样本数据相匹配，得到所述第一连续预测模型。

19、在一些实施例中，所述第一预测模型包括第一离散预测模型和第一连续预测模型，更新后的第一预测模型包括第二离散预测模型和第二连续预测模型；

20、所述基于所述第二样本数据，更新所述本次迭代过程的所述第一预测模型，包括：

21、在所述自动驾驶场景的状态为离散状态且动作为离散动作的情况下，基于多组第二样本数据分别对应的目标时刻t’下的状态和动作，得到多个第二类别，基于所述多个第二类别，更新所述第一离散预测模型，得到所述第二离散预测模型，所述第二类别中的样本数据包括相同的状态和动作，所述多组第二样本数据包括所述目标时刻t’下的第二样本数据和在所述目标时刻t’之前的迭代过程中获取的第二样本数据；

22、在所述自动驾驶场景的状态为连续状态且动作为连续动作的情况下，基于所述多组第二样本数据，对所述第一连续预测模型进行训练，得到所述第二连续预测模型。

23、在一些实施例中，任一第二类别对应目标时刻t’下的多种奖励和目标时刻t’+1下的多种状态，所述第一离散预测模型包括多个第一类别分别对应的第一状态分布和第一奖励分布，所述基于所述多个第二类别，更新所述第一离散预测模型，得到所述第二离散预测模型，包括：

24、基于所述多种状态，更新目标第一类别对应的第一状态分布，得到第二状态分布，所述目标第一类别与所述第二类别相同，所述第二状态分布包括所述多种状态分别对应的数量比，任一状态对应的数量比基于第一和值和第二和值确定，所述第一和值基于所述状态的第二样本数据量和所述状态的第一样本数据量确定，所述第二和值基于所述第二类别的第二样本数据量和所述目标第一类别的第一样本数据量确定；

25、基于所述多种奖励，更新所述目标第一类别对应的第一奖励分布，得到第二奖励分布，所述第二奖励分布基于第三和值和所述第二和值确定，所述第三和值基于所述目标时刻t’下的多种奖励之间的奖励和值和所述仿真时刻t下的多种奖励之间的奖励和值确定；

26、基于所述多个第二类别分别对应的第二状态分布和第二奖励分布，确定所述第二离散预测模型。

27、在一些实施例中，所述方法还包括：

28、确定所述状态的第一样本数据量与预设比例之间的第一乘积，将所述状态的第二样本数据量与所述第一乘积之和作为所述第一和值，所述第一预测模型的任一迭代过程均对应一个预设比例，所述预设比例与所述迭代过程对应的迭代次数负相关；

29、确定所述第一类别的第一样本数据量与所述预设比例之间的第二乘积，将所述第二类别的第二样本数据量与所述第二乘积之和作为所述第二和值；

30、确定所述仿真时刻t下的多种奖励之间的奖励和值与所述预设比例之间的第三乘积，将所述目标时本文档来自技高网...

【技术保护点】

1.一种强化学习的策略迁移方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一预测模型包括第一离散预测模型和第一连续预测模型，基于所述多组第一样本数据，确定所述第一预测模型的过程，包括：

3.根据权利要求2所述的方法，其特征在于，任一第一类别对应仿真时刻T下的多种奖励和仿真时刻T+1下的多种状态，所述基于所述多个第一类别，确定所述第一离散预测模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述多组第一样本数据，进行模型训练，得到所述第一连续预测模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述第一预测模型包括第一离散预测模型和第一连续预测模型，更新后的第一预测模型包括第二离散预测模型和第二连续预测模型；

6.根据权利要求5所述的方法，其特征在于，任一第二类别对应目标时刻T’下的多种奖励和目标时刻T’+1下的多种状态，所述第一离散预测模型包括多个第一类别分别对应的第一状态分布和第一奖励分布，所述基于所述多个第二类别，更新所述第一离散预测模型，得到所述第二离散预测模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求5所述的方法，其特征在于，所述基于所述多组第二样本数据，对所述第一连续预测模型进行训练，得到所述第二连续预测模型，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行，以实现如权利要求1至权利要求9任一项所述的强化学习的策略迁移方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至权利要求9任一项所述的强化学习的策略迁移方法。

...

【技术特征摘要】

1.一种强化学习的策略迁移方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，任一第一类别对应仿真时刻t下的多种奖励和仿真时刻t+1下的多种状态，所述基于所述多个第一类别，确定所述第一离散预测模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述多组第一样本数据，进行模型训练，得到所述第一连续预测模型，包括：

6.根据权利要求5所述的方法，其特征在于，任一第二类别对应目标时刻t’下的多种奖励和目标时刻t’+1下的多种状态，所述第一离散预测模型包括多个第一类别分...

【专利技术属性】
技术研发人员：李阔，贾庆山，张涛，白钰，任冬淳，夏华夏，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人