置信域策略优化模型的训练方法、装置、计算机设备、可读存储介质和程序产品制造方法及图纸

技术编号：42584846 阅读：23 留言：0更新日期：2024-09-03 18:02

本申请涉及一种置信域策略优化模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括：建立汽车系统模型；构建待训练的置信域策略优化模型，所述待训练的置信域策略优化模型包括策略网络和评价网络；基于所述汽车系统模型和所述策略网络，获取标准工况训练集；基于所述标准工况训练集对所述策略网络和所述评价网络进行训练，得到训练完成的置信域策略优化模型，所述训练完成的置信域策略优化模型用于对汽车进行能量管理。提升了整车性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及汽车，特别是涉及一种置信域策略优化模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、世界各国纷纷针对燃油车制定了严格的排放法规，这不仅是对环境保护的积极回应，也推动了新能源汽车产业的发展。其中，混合动力汽车因其高效且零排放的特性，受到了众多厂商和科研机构的青睐，成为他们重点研发的对象。由于混合动力汽车通常配备了多个动力源，如何高效地管理这些动力源成为了一个至关重要的技术问题。

2、在传统技术中，通常基于预先设置的能量管理策略进行能量管理，这种方式相对简单，但是控制效果的好坏过度依赖于专家经验，整车性能不高。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提升整车性能的置信域策略优化模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种置信域策略优化模型的训练方法，包括：

3、建立汽车系统模型；

4、构建待训练的置信域策略优化模型，所述...

【技术保护点】

1.一种置信域策略优化模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述汽车系统模型和所述策略网络，获取标准工况训练集，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述标准工况训练集对所述策略网络进行训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于价值函数、所述折扣回报、所述近似期望以及所述策略网络的当前参数，确定所述策略网络的更新参数，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在...

【技术特征摘要】

1.一种置信域策略优化模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述汽车系统模型和所述策略网络，获取标准工况训练集，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述标准工况训练集对所述策略网络进行训练，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-5任一项...

【专利技术属性】
技术研发人员：高荧，安孝文，吕颖，刘秋铮，张坤超，罗冠群，左奇，
申请(专利权)人：中国第一汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人