【技术实现步骤摘要】
本申请涉及汽车,特别是涉及一种置信域策略优化模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
1、世界各国纷纷针对燃油车制定了严格的排放法规,这不仅是对环境保护的积极回应,也推动了新能源汽车产业的发展。其中,混合动力汽车因其高效且零排放的特性,受到了众多厂商和科研机构的青睐,成为他们重点研发的对象。由于混合动力汽车通常配备了多个动力源,如何高效地管理这些动力源成为了一个至关重要的技术问题。
2、在传统技术中,通常基于预先设置的能量管理策略进行能量管理,这种方式相对简单,但是控制效果的好坏过度依赖于专家经验,整车性能不高。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提升整车性能的置信域策略优化模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种置信域策略优化模型的训练方法,包括:
3、建立汽车系统模型;
4、构建待训练的置信域策略优化模型,所述
...【技术保护点】
1.一种置信域策略优化模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述汽车系统模型和所述策略网络,获取标准工况训练集,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述标准工况训练集对所述策略网络进行训练,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于价值函数、所述折扣回报、所述近似期望以及所述策略网络的当前参数,确定所述策略网络的更新参数,包括:
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1-5任一项
...【技术特征摘要】
1.一种置信域策略优化模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述汽车系统模型和所述策略网络,获取标准工况训练集,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述标准工况训练集对所述策略网络进行训练,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于价值函数、所述折扣回报、所述近似期望以及所述策略网络的当前参数,确定所述策略网络的更新参数,包括:
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1-5任一项...
【专利技术属性】
技术研发人员:高荧,安孝文,吕颖,刘秋铮,张坤超,罗冠群,左奇,
申请(专利权)人:中国第一汽车股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。