【技术实现步骤摘要】
一种模型更新方法、装置、设备及可读存储介质
[0001]本申请涉及机器学习
,特别涉及一种模型更新方法、装置、设备及可读存储介质。
技术介绍
[0002]深度强化学习(DRL,Deep Reinforcement Learning)是近年来快速发展的一类机器学习方法,通过智能体
‑
环境之间的交互作用进行序列决策,智能体基于获得的奖励持续优化决策策略。随着深度学习和强化学习技术的进步,具备强大表征能力、决策能力的深度强化学习方法被逐渐应用于探索自动驾驶技术。
[0003]深度强化学习用于自动驾驶时,可以基于一个驾驶场景训练相应的驾驶模型,使用该驾驶模型就能够有相应的自动驾驶策略。然而,在一个区域内训练得到的自动驾驶策略,不适用在与该区域差异较大的其他区域内直接应用。如:在空旷环境下训练得到的自动驾驶策略,在拥堵环境中难以避免碰撞问题。如果直接在拥堵环境对空旷环境下的自动驾驶策略进行更新,那么最终模型的稳定性较差。如果直接在拥堵环境训练一个新模型,训练成本会比较高。
[0004]因此,如何 ...
【技术保护点】
【技术特征摘要】
1.一种模型更新方法,其特征在于,包括:获取目的场景中的目的数据集、源场景中的源数据集及利用所述源数据集训练完成的源模型;在所述源数据集和所述目的数据集之间确定至少一个中间数据集;将所述至少一个中间数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间,得到数据集序列;针对排列在所述数据集序列首位置之后的每个数据集,将前一数据集训练完成的模型作为当前数据集的待训练模型,利用当前数据集训练所述待训练模型得到当前数据集训练完成的模型;获取并存储所述目的数据集训练完成的模型。2.根据权利要求1所述的方法,其特征在于,所述在所述源数据集和所述目的数据集之间确定至少一个中间数据集,包括:确定所述源数据集和所述目的数据集中的差异化数据,并将所述差异化数据分类为N个训练维度;针对每个训练维度的差异化数据,在当前训练维度的差异化数据中确定至少一个差异程度,根据所述至少一个差异程度确定至少一个数据组,并将所述至少一个数据组分别填充至所述源数据集,得到当前训练维度对应的至少一个中间数据集;相应地,所述将所述至少一个中间数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间,得到数据集序列,包括:按差异梯度大小分别排列N个训练维度对应的各中间数据集,得到N个子序列;基于所述N个子序列、所述源数据集和所述目的数据集,得到所述数据集序列。3.根据权利要求2所述的方法,其特征在于,所述基于所述N个子序列、所述源数据集和所述目的数据集,得到所述数据集序列,包括:根据N个训练维度的优先级顺序拼接N个子序列,并将所述源数据集置于拼接得到的序列的首位置,将所述目的数据集置于拼接得到的序列的尾位置,得到所述数据集序列;或将N个子序列中的中间数据集对位进行合并,将合并得到的数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间,得到所述数据集序列。4.根据权利要求2所述的方法,其特征在于,若所述源模型用于控制车辆或机器人自动移动,则所述N个训练维度包括:移动场景中同类型的车辆或机器人的稀疏程度和/或移动场景中是否有非同类型的随机障碍物。5.根据权利要求1至4任一项所述的方法,其特征在于,所述利用当前数据集训练所述待训练模型得到当前数据集训练完成的模型,包括:确定当前数据集对应的奖惩函数;从当前数据集中获取一...
【专利技术属性】
技术研发人员:李茹杨,邓琪,张亚强,李雪雷,魏辉,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。