【技术实现步骤摘要】
状态值预测模型的训练方法及装置
[0001]本专利技术涉及模型训练
,具体而言,涉及一种状态值预测模型的训练方法及装置。
技术介绍
[0002]超大尺寸高精度探索环境是一种具有超大尺寸与超高精度的环境。环境中有各类障碍、威胁物、重要目标等,智能体需要探索环境的各个区域并完成相应的任务。为了取得较好的探索效果,这里智能体需要采集环境中的各类状态信息来辅助自身的决策,例如智能体在区域中的绝对位置、智能体自身与探索到的环境中的各个威胁物的相对位置、与环境中的重要目标的相对位置等等。
[0003]然而在超大尺寸高精度探索环境中,状态空间需要处理将不同的且差距较大的量级的状态值一同输入网络进行处理的问题,例如从智能体自身的尺寸量级(例如:1~10),一直到区域尺寸量级(例如:1e5~1e6)的状态值。如果不对不同量级的状态值进行归一化操作的话,会由于各个状态值的量级相差较大,无法取得较好的训练效果。
[0004]但是在现有技术中,使用传统的状态值归一化操作会导致状态空间序列面对区分度过小的问题,相对于网络接收到的 ...
【技术保护点】
【技术特征摘要】
1.一种状态值预测模型的训练方法,其特征在于,包括:根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据所述指数变换基底对所述第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据所述最大量级对所述第一网络进行更新,以得到第二网络;根据所述第二输入状态值对所述第二网络进行训练。2.根据权利要求1所述的方法,其特征在于,所述根据第一网络在倒空间中的状态取值空间确定指数变换基底,包括:根据所述第一网络的原状态取值空间,确定所述状态取值空间;根据所述状态取值空间确定所述指数变换基底。3.根据权利要求2所述的方法,其特征在于,所述根据所述状态取值空间确定所述指数变换基底,包括:在所述状态取值空间中,根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底,包括:从预设基底集合中选取第一基底,并判断所述第一基底是否满足预设条件,其中,所述预设条件包括:所述状态取值空间对应的展开式的和小于或等于第一预设维度,所述第一输入状态值可扩展的最大维度小于或等于第二预设维度、且所述第一输入状态值对应的基底量级小于或等于第一预设量级,其中,所述展开式是对所述状态取值空间中的每一项进行所述第一基底的指数变换得到的;若满足,则确定所述第一基底为所述指数变换基底。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底,还包括:若所述展开式的和大于第一预设维度,或所述第一输入状态值可扩展的最大维度大于第二预设维度,则选取所述预设基底集合中大于所述第一基底的第二基底;基于所述第二基底对所述第一基底进行更新;或,若所述第一输入状态值对应的基底量级大于所述第一预设量级,则选取所...
【专利技术属性】
技术研发人员:徐波,张文圣,徐博,张鸿铭,王燕娜,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。