对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法及装置制造方法及图纸

技术编号:25836697 阅读:44 留言:0更新日期:2020-10-02 14:17
本发明专利技术涉及一种方法,对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定,包括:步骤(a),若获取到与虚拟环境上的虚拟当前状态相对应的虚拟当前帧信息,则标定装置执行(i)向基于深度学习的装置发送虚拟当前帧信息,输出虚拟动作信息,(ii)向物理引擎发送虚拟当前帧信息和虚拟动作信息,输出与虚拟当前帧信息和虚拟动作信息相对应的虚拟下一帧信息,(iii)向真实状态网络发送虚拟当前帧信息和虚拟动作信息,输出预测的真实下一帧信息,真实状态网络经学习对真实动作信息响应而输出多个预测下一帧信息;以及步骤(b),对上一标定参数进行标定,生成当前标定参数。

【技术实现步骤摘要】
对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法及装置
本专利技术涉及用于基于深度学习(DeepLearning)的装置的学习的虚拟世界模拟器(VirtualWorldSimulator),更详细地涉及,利用真实世界(RealWorld)中对下一状态(NextState)进行建模(modeling)的真实状态网络(RealStateNetwork)对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎(PhysicsEngine)进行标定(Calibration)的方法及装置、真实状态网络的学习方法及利用其的学习装置。
技术介绍
无人驾驶汽车等基于深度学习(DeepLearning)的装置通常利用由短期规划(Short-TermPlanning)输入的最近几个帧至几十个帧的信息,确定下一个动作(Action)。作为一例,无人驾驶汽车的情况下,基于从各个帧获取的信息,即,基于所检测的对象的边框(BoundingBox)和左/右方向等元数据(MetaData)或分割图像(SegmentationImage),本文档来自技高网...

【技术保护点】
1.一种方法,其特征在于,对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定,包括:/n步骤(a),若从虚拟世界模拟器获取到与虚拟环境上的虚拟当前状态相对应的虚拟当前帧信息,则标定装置执行过程(i)、过程(ii)以及过程(iii),过程(i)中,向所述基于深度学习的装置发送所述虚拟当前帧信息,使得所述基于深度学习的装置利用上一学习参数对所述虚拟当前帧信息进行运算,输出与所述虚拟当前帧信息相对应的虚拟动作信息,过程(ii)中,向所述虚拟世界模拟器的所述物理引擎发送所述虚拟当前帧信息和所述虚拟动作信息,使得所述物理引擎利用上一标定参数对所述虚拟当前帧信息和所述虚拟动作信息进行运算,输...

【技术特征摘要】
20190130 US 62/798,691;20191220 US 16/723,4501.一种方法,其特征在于,对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定,包括:
步骤(a),若从虚拟世界模拟器获取到与虚拟环境上的虚拟当前状态相对应的虚拟当前帧信息,则标定装置执行过程(i)、过程(ii)以及过程(iii),过程(i)中,向所述基于深度学习的装置发送所述虚拟当前帧信息,使得所述基于深度学习的装置利用上一学习参数对所述虚拟当前帧信息进行运算,输出与所述虚拟当前帧信息相对应的虚拟动作信息,过程(ii)中,向所述虚拟世界模拟器的所述物理引擎发送所述虚拟当前帧信息和所述虚拟动作信息,使得所述物理引擎利用上一标定参数对所述虚拟当前帧信息和所述虚拟动作信息进行运算,输出与所述虚拟当前帧信息和所述虚拟动作信息相对应的虚拟下一帧信息,过程(iii)中,向真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息,使得所述真实状态网络利用经学习的预测参数对与所述虚拟当前帧信息相对应的多个虚拟最近帧信息和所述虚拟动作信息进行运算,输出预测的真实下一帧信息,所述真实状态网络经学习处于对真实环境上的多个真实最近帧信息中由所述基于深度学习的装置执行的真实动作的真实动作信息响应而输出多个预测下一帧信息的状态;以及
步骤(b),所述标定装置对所述物理引擎的所述上一标定参数进行标定及最优化,使得当前标定参数生成为最优化的参数,以使参照所述虚拟下一帧信息和所述预测的真实下一帧信息生成的至少一个损失最小化。


2.根据权利要求1所述的方法,其特征在于,还包括:
步骤(c),所述标定装置向所述基于深度学习的装置发送与所述虚拟动作信息相对应的奖励信息和所述虚拟下一帧信息,使得所述基于深度学习的装置通过利用所述虚拟下一帧信息和所述奖励信息的在线强化学习更新所述上一学习参数。


3.根据权利要求1所述的方法,其特征在于,所述步骤(a)的所述过程(iii)中,所述标定装置执行向所述真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息的过程,使得所述真实状态网络参照所述虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成所述多个虚拟最近帧信息。


4.根据权利要求3所述的方法,其特征在于,所述过程(iii)中,
所述标定装置执行向所述真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息的过程,使得所述真实状态网络,(iii-1)(iii-1-1)对拼接所述虚拟当前帧信息和所述k个虚拟上一帧信息而生成的虚拟当前帧状态合进行卷积运算,生成第一维度向量,(iii-1-2)对所述虚拟动作信息进行全连接运算,生成第二维度向量,(iii-2)对所述第一维度向量和所述第二维度向量的拼接结果进行反卷积运算,生成所述预测的真实下一帧信息。


5.根据权利要求4所述的方法,其特征在于,
所述虚拟当前帧状态合是拼接(i)HxWxC张量的所述虚拟当前帧信息和(ii)k个所述虚拟上一帧信息而生成的HxWx(K+1)张量,
所述第一维度向量为HWC-维度向量,
所述第二维度向量为L维向量的情况下,所述预测的真实下一帧信息是对拼接所述第一维度向量和所述第二维度向量而生成的1x1x(HWC+L)张量进行反卷积运算生成的HxWxC张量。


6.根据权利要求1所述的方法,其特征在于,所述步骤(b)中,所述标定装置重复执行过程(i)、过程(ii)以及过程(iii),直到所述损失减少,
过程(i)中,选择所述上一标定参数中的一个上一标定参数的过程,
过程(ii)中,利用所述损失对选择的所述一个上一标定参数进行标定,根据预设的学习率进行标定,使得一个当前标定参数生成为最优化的参数,
过程(iii)中,(iii-1)使得所述物理引擎,利用所述一个当前标定参数和除了所述一个上一标定参数之外的剩余上一标定参数,对所述虚拟当前帧信息和所述虚拟动作信息进行运算,生成新的虚拟下一帧信息,(iii-2)利用参照所述新的虚拟下一帧信息和所述预测的真实下一帧信息生成的至少一个新的损失,确认所述损失是否减少。


7.根据权利要求6所述的方法,其特征在于,在所有所述上一标定参数的所述损失未减少的情况下,所述标定装置使得所述预设的学习率减少,并执行所述过程(i)、所述过程(ii)以及所述过程(iii)。


8.一种方法,其特征在于,用于真实状态网络的学习,所述真实状态网络生成真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息,包括:
步骤(a),若获取所述真实环境中由所述基于深度学习的装置执行的所述真实动作的所述多个真实动作信息对应的多个轨迹信息作为训练数据,则学习装置参照特定轨迹信息的特定时刻的真实当前帧信息和k个上一真实帧信息生成多个学习用最近帧信息;
步骤(b),所述学习装置向所述真实状态网络输入参照所述特定时刻的所述特定轨迹信息的真实当前动作信息获取的学习用动作信息和所述多个学习用最近帧信息,使得所述真实状态网络利用预测参数对所述多个学习用最近帧信息和所述学习用动作信息进行运算,输出所述预测下一帧信息;以及
步骤(c),所述学习装置利用参照所述特定轨迹信息中的所述真实当前帧信息之后的真实下一帧信息和所述预测下一帧信息生成的至少一个损失,更新所述预测参数,以使所述损失最小化。


9.根据权利要求8所述的方法,其特征在于,所述步骤(b)中,所述学习装置执行:
过程(i),(i-1)向所述真实状态网络的卷积神经网络输入拼接所述多个学习用最近帧信息而生成的学习用当前帧状态合,使得所述卷积神经网络对所述学习用当前帧状态合进行卷积运算,输出第一特征,(i-2)向所述真实状态网络的至少一个全连接层输入所述学习用动作信息,使得所述至少一个全连接层对所述学习用动作信息进行全连接运算,输出第二特征;以及
过程(ii),向反卷积层输入拼接所述第一特征和所述第二特征生成的拼接特征,使得所述反卷积层对所述拼接特征进行反卷积运算,输出所述预测下一帧信息。


10.根据权利要求9所述的方法,其特征在于,所述学习装置执行:
过程(i),使得所述卷积神经网络,将拼接HxWxC张量的所述多个学习用最近帧信息而生成的HxWx(K+1)张量的所述学习用当前帧状态合输出为HWC-维度向量的所述第一特征;
过程(ii),使得所述至少一个全连接层,将三维向量的所述学习用动作信息输出为L维向量的所述第二特征,以及
过程(iii),使得所述反卷积层,将拼接所述第一特征和所述第二特征而生成的1x1x(HWC+L)张量输出为HxWxC张量的所述预测下一帧信息。


11.根据权利要求9所述的方法,其特征在于,所述学习装置通过利用所述损失的梯度下降法,更新所述至少一个CNN、所述至少一个全连接层,以及所述反卷积层中的至少一个参数。


12.一种标定装置,其特征在于,对用于基于深度学习的装置的学...

【专利技术属性】
技术研发人员:金桂贤金镕重金鹤京南云铉夫硕焄成明哲申东洙吕东勳柳宇宙李明春李炯树张泰雄郑景中诸泓模赵浩辰
申请(专利权)人:斯特拉德视觉公司
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1