强化学习模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41131718 阅读：2 留言：0更新日期：2024-04-30 18:01

本发明专利技术公开了一种强化学习模型训练方法、装置、电子设备及存储介质。该方法包括：获取根据第一场景样本数据进行强化学习训练得到的预训练模型，其中，所述预训练模型包括状态感知网络和动作决策网络；复用所述预训练模型中动作决策网络；获取第二场景样本数据，基于所述第二场景样本数据对所述预训练模型中的状态感知网络进行训练，得到目标强化学习模型。上述技术方案，实现了强化学习模型的迁移学习，有效提升了强化学习模型在新场景下的预测准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习，尤其涉及一种强化学习模型训练方法、装置、电子设备及存储介质。

技术介绍

1、随着强化学习技术的不断发展，强化学习技术被广泛应用于各种场景下。

2、在实现本专利技术的过程中，发现现有技术中至少存在以下技术问题：现有强化学习技术方案，在强化学习模型迁移至新场景的情况下，存在预测准确度低的问题。

技术实现思路

1、本专利技术提供了一种强化学习模型训练方法、装置、电子设备及存储介质，以提升强化学习模型的预测准确度。

2、根据本专利技术的一方面，提供了一种强化学习模型训练方法，包括：

3、获取根据第一场景样本数据进行强化学习训练得到的预训练模型，其中，所述预训练模型包括状态感知网络和动作决策网络；

4、复用所述预训练模型中动作决策网络；

5、获取第二场景样本数据，基于所述第二场景样本数据对所述预训练模型中的状态感知网络进行训练，得到目标强化学习模型。

6、根据本专利技术的另一方面，提供了一种强化学习模型训练装置，包括：

7、预训练模型获取模块，用于获取根据第一场景样本数据进行强化学习训练得到的预训练模型，其中，所述预训练模型包括状态感知网络和动作决策网络；

8、动作决策网络复用模块，用于复用所述预训练模型中动作决策网络；

9、目标强化学习模型确定模块，用于获取第二场景样本数据，基于所述第二场景样本数据对所述预训练模型中的状态感知网络进行训练，得到目标强化学习模型。

10、根据本专利技术的另一方面，提供了一种电子设备，所述电子设备包括：

11、至少一个处理器；

12、以及与所述至少一个处理器通信连接的存储器；

13、其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术任一实施例所述的强化学习模型训练方法。

14、根据本专利技术的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的强化学习模型训练方法。

15、本专利技术实施例的技术方案，通过获取根据第一场景样本数据进行强化学习训练得到的预训练模型，其中，预训练模型包括状态感知网络和动作决策网络；复用预训练模型中动作决策网络；获取第二场景样本数据，基于第二场景样本数据对预训练模型中的状态感知网络进行训练，得到目标强化学习模型，实现了强化学习模型的迁移学习，有效提升了强化学习模型在新场景下的预测准确度。

16、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种强化学习模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一场景样本数据包括第一地图场景中第一智能体对应的第一状态信息以及第一地图场景中第一智能体对应的第一动作信息；

3.根据权利要求2所述的方法，其特征在于，所述第一状态价值函数值包括多个任务对应的状态价值函数值；

4.根据权利要求3所述的方法，其特征在于，所述预设损失函数包括：

5.根据权利要求1所述的方法，其特征在于，所述第二场景样本数据包括第二地图场景中第二智能体对应的第二状态信息以及第二地图场景中第二智能体对应的第二动作信息；

6.根据权利要求1所述的方法，其特征在于，所述状态感知网络包括全连接层和门控循环单元，所述全连接层与所述门控循环单元连接；动作决策网络包括全连接层。

7.一种强化学习模型训练装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第二场景样本数据包括第二地图场景中第二智能体对应的第二状态信息以及第二地图场景中第二智能体对应的第二动作信息；

9.一种

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的强化学习模型训练方法。

...

【技术特征摘要】

1.一种强化学习模型训练方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一状态价值函数值包括多个任务对应的状态价值函数值；

4.根据权利要求3所述的方法，其特征在于，所述预设损失函数包括：

6.根据权利要求...

【专利技术属性】
技术研发人员：徐亮，单彬，赵鉴，秦熔均，俞扬，
申请(专利权)人：南栖仙策南京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人