车辆选型的方法及装置制造方法及图纸

技术编号:19694619 阅读:23 留言:0更新日期:2018-12-08 11:53
本发明专利技术提出了一种车辆选型的方法及装置,包括:获取车辆的当前仿真状态,根据当前仿真状态和各零部件选型动作,分别生成车辆在当前仿真状态下执行各零部件选型动作所获得的瞬时奖赏值,根据各瞬时奖赏值,更新车辆在当前仿真状态下执行各零部件选型动作所获得的绝对奖赏值,根据更新后的各绝对奖赏值,确定目标选型方案。本发明专利技术的车辆选型的方法及装置,针对不同的整车性能指标、不同的选型方案,可准确、快速的自动选择出符合整车性能指标的最优选型方案,缩短车辆的开发周期,并能针对现有车型对零部件系统提出准确的改进目标及优化方案。

【技术实现步骤摘要】
车辆选型的方法及装置
本专利技术涉及汽车
,尤其涉及一种车辆选型的方法及装置。
技术介绍
由于汽车选型的复杂性、多因素性,针对不断变化的汽车需求,不同车型的汽车需求不同的整车性能指标,从而会选择不同的选型方案,同时,汽车内的零部件体系也需进行不断的改进及优化,以提高市场竞争力。相关技术中,工程师在寻找与整车性能指标相匹配的选型方案过程中,通常由依靠自身经验与标杆分析的方法来进行选择指导工作,具有一定局限性;针对不同的选型方案,每一次车辆内零部件的变更,都需工程师重新进行仿真工作,以筛选出最优选型方案,导致车辆开发周期过长;针对现有车型,车辆的零部件体系通常以供应商能力与工程师经验为主体进行指导改进及优化,存在一定的偶然性,往往只能产生局部最优结果,无法产生车辆整体最优结果。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种车辆选型的方法,针对不同的整车性能指标、不同的选型方案,可准确、快速的自动选择出符合整车性能指标的最优选型方案,缩短车辆的开发周期,并能针对现有车型对零部件系统提出准确的改进目标及优化方案。本专利技术的第二个目的在于提出一种车辆选型的装置。为达上述目的,本专利技术第一方面实施例提出了一种车辆选型的方法,包括:获取车辆的当前仿真状态;根据所述当前仿真状态和各零部件选型动作,分别生成所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的瞬时奖赏值;根据各所述瞬时奖赏值,更新所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的绝对奖赏值;根据更新后的各所述绝对奖赏值,确定目标选型方案。本专利技术实施例提出的车辆选型的方法,首先获取车辆的当前仿真状态,根据当前仿真状态和各零部件选型动作,分别生成车辆在当前仿真状态下执行各零部件选型动作所获得的瞬时奖赏值,接着,根据各瞬时奖赏值,更新车辆在当前仿真状态下执行各零部件选型动作所获得的绝对奖赏值,然后,根据更新后的各绝对奖赏值,确定目标选型方案。根据当前仿真状态和各零部件选型动作来获取瞬时奖赏值,根据瞬时奖赏值更新绝对奖赏值,最后依据绝对奖赏值来确定目标选型方案,针对不同的整车性能指标、不同的选型方案,可准确、快速的自动选择出符合整车性能指标的最优选型方案,缩短车辆的开发周期,并能针对现有车型对零部件系统提出准确的改进目标及优化方案。根据本专利技术的一个实施例,所述根据所述当前仿真状态和各零部件选型动作,分别生成所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的瞬时奖赏值,包括:根据所述当前仿真状态和各所述零部件选型动作,采用强化学习算法生成所述瞬时奖赏值。根据本专利技术的一个实施例,所述根据所述当前仿真状态和各所述零部件选型动作,采用强化学习算法生成所述瞬时奖赏值,包括:根据所述当前仿真状态和各所述零部件选型动作,采用动作值函数学习算法生成所述瞬时奖赏值。根据本专利技术的一个实施例,所述根据所述当前仿真状态和各所述零部件选型动作,采用动作值函数学习算法生成所述瞬时奖赏值,包括:采用第一预设公式,生成所述瞬时奖赏值,所述第一预设公式为:其中,所述Q*(st,at)为所述车辆在所述当前仿真状态st下,执行所述零部件选型动作at达到下一仿真状态st+1所获得的所述瞬时奖赏值;所述R=f(st,at,st+1)为根据整车性能指标预设的回报函数;所述γ为预设的折减系数;所述Q*(st+1,an)为所述车辆在所述下一仿真状态st+1下执行所述零部件选型动作an所获得的所述瞬时奖赏值;所述A为预设的零部件选型集合。根据本专利技术的一个实施例,所述根据各所述瞬时奖赏值,更新所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的绝对奖赏值,包括:采用第二预设公式,更新所述绝对奖赏值,所述第二预设公式为:Q′(st,at)=(1-α)Q(st,at)+αQ*(st,at),其中,所述Q′(st,at)为更新后的所述绝对奖赏值;所述α为预设的学习效率;所述Q(st,at)为更新前的所述绝对奖赏值。为达上述目的,本专利技术第二方面实施例提出了一种车辆选型的装置,包括:获取模块,用于获取车辆的当前仿真状态;生成模块,用于根据所述当前仿真状态和各零部件选型动作,分别生成所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的瞬时奖赏值;更新模块,用于根据各所述瞬时奖赏值,更新所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的绝对奖赏值;确定模块,用于根据更新后的各所述绝对奖赏值,确定目标选型方案。本专利技术实施例提出的车辆选型的装置,首先获取车辆的当前仿真状态,根据当前仿真状态和各零部件选型动作,分别生成车辆在当前仿真状态下执行各零部件选型动作所获得的瞬时奖赏值,接着,根据各瞬时奖赏值,更新车辆在当前仿真状态下执行各零部件选型动作所获得的绝对奖赏值,然后,根据更新后的各绝对奖赏值,确定目标选型方案。根据当前仿真状态和各零部件选型动作来获取瞬时奖赏值,根据瞬时奖赏值更新绝对奖赏值,最后依据绝对奖赏值来确定目标选型方案,针对不同的整车性能指标、不同的选型方案,可准确、快速的自动选择出符合整车性能指标的最优选型方案,缩短车辆的开发周期,并能针对现有车型对零部件系统提出准确的改进目标及优化方案。根据本专利技术的一个实施例,所述生成模块具体用于:根据所述当前仿真状态和各所述零部件选型动作,采用强化学习算法生成所述瞬时奖赏值。根据本专利技术的一个实施例,所述生成模块具体用于:根据所述当前仿真状态和各所述零部件选型动作,采用动作值函数学习算法生成所述瞬时奖赏值。根据本专利技术的一个实施例,所述生成模块具体用于:采用第一预设公式,生成所述瞬时奖赏值,所述第一预设公式为:其中,所述Q*(st,at)为所述车辆在所述当前仿真状态st下,执行所述零部件选型动作at达到下一仿真状态st+1所获得的所述瞬时奖赏值;所述R=f(st,at,st+1)为根据整车性能指标预设的回报函数;所述γ为预设的折减系数;所述Q*(st+1,an)为所述车辆在所述下一仿真状态st+1下执行所述零部件选型动作an所获得的所述瞬时奖赏值;所述A为预设的零部件选型集合。根据本专利技术的一个实施例,所述更新模块具体用于:采用第二预设公式,更新所述绝对奖赏值,所述第二预设公式为:Q′(st,at)=(1-α)Q(st,at)+αQ*(st,at),其中,所述Q′(st,at)为更新后的所述绝对奖赏值;所述α为预设的学习效率;所述Q(st,at)为更新前的所述绝对奖赏值。附图说明图1是强化学习基本框架结构图;图2是根据本专利技术另一个实施例的车辆选型的方法的流程图;图3是根据本专利技术一个实施例的车辆选型的装置的结构图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面结合附图来描述本专利技术实施例的车辆选型的方法及装置。图1是强化学习基本框架结构图,如图1所示,强化学习基本框架中智能体Agent包括:输入模块I、强化模块R、策略模块P和内部世界模型W;输入模块I把环境状态映射成Agent的感知本文档来自技高网...

【技术保护点】
1.一种车辆选型的方法,其特征在于,包括以下步骤:获取车辆的当前仿真状态;根据所述当前仿真状态和各零部件选型动作,分别生成所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的瞬时奖赏值;根据各所述瞬时奖赏值,更新所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的绝对奖赏值;根据更新后的各所述绝对奖赏值,确定目标选型方案。

【技术特征摘要】
1.一种车辆选型的方法,其特征在于,包括以下步骤:获取车辆的当前仿真状态;根据所述当前仿真状态和各零部件选型动作,分别生成所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的瞬时奖赏值;根据各所述瞬时奖赏值,更新所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的绝对奖赏值;根据更新后的各所述绝对奖赏值,确定目标选型方案。2.根据权利要求1所述的方法,其特征在于,所述根据所述当前仿真状态和各零部件选型动作,分别生成所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的瞬时奖赏值,包括:根据所述当前仿真状态和各所述零部件选型动作,采用强化学习算法生成所述瞬时奖赏值。3.根据权利要求2所述的方法,其特征在于,所述根据所述当前仿真状态和各所述零部件选型动作,采用强化学习算法生成所述瞬时奖赏值,包括:根据所述当前仿真状态和各所述零部件选型动作,采用动作值函数学习算法生成所述瞬时奖赏值。4.根据权利要求3所述的方法,其特征在于,所述根据所述当前仿真状态和各所述零部件选型动作,采用动作值函数学习算法生成所述瞬时奖赏值,包括:采用第一预设公式,生成所述瞬时奖赏值,所述第一预设公式为:其中,所述Q*(st,at)为所述车辆在所述当前仿真状态st下,执行所述零部件选型动作at达到下一仿真状态st+1所获得的所述瞬时奖赏值;所述R=f(st,at,st+1)为根据整车性能指标预设的回报函数;所述γ为预设的折减系数;所述Q*(st+1,an)为所述车辆在所述下一仿真状态st+1下执行所述零部件选型动作an所获得的所述瞬时奖赏值;所述A为预设的零部件选型集合。5.根据权利要求4所述的方法,其特征在于,所述根据各所述瞬时奖赏值,更新所述车辆在所述当前仿真状态下执行各所述零部件选型动作所获得的绝对奖赏值,包括:采用第二预设公式,更新所述绝对奖赏值,所述第二预设公式为:Q′(st,at)=(1-α)Q(st,at)+...

【专利技术属性】
技术研发人员:苗一松张艳超
申请(专利权)人:北汽福田汽车股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1