【技术实现步骤摘要】
移动顺序确定模型的训练方法和确定移动顺序的方法、装置
[0001]本公开涉及人工智能领域,具体涉及时空大数据领域和深度强化学习领域,尤其涉及一种移动顺序确定模型的训练方法和确定移动顺序的方法、装置、电子设备和存储介质。
技术介绍
[0002]随着计算机技术和网络技术的发展,深度强化学习(Deep reinforcement learning,DRL)技术在众多领域得到了广泛应用。例如,可以采用强化学习技术,根据设备状态,预测设备的运行策略等。
技术实现思路
[0003]本公开旨在提供一种提高顺序确定精度的移动顺序确定模型的训练方法和确定移动顺序的方法、装置、电子设备和存储介质。
[0004]根据本公开的一个方面,提供了一种移动顺序确定模型的训练方法,包括:针对多个第一对象中的未移动对象,确定针对未移动对象的环境信息;将环境信息输入移动顺序确定模型,获得针对多个第一对象的预测概率信息;根据预测概率信息,确定针对移动顺序确定模型的第一奖励信息;以及根据第一奖励信息,训练移动顺序确定模型,其中,预测概率信息包括多个第一对象中的每个第一对象作为目标对象的概率值。
[0005]根据本公开的一个方面,提供了一种确定移动顺序的方法,包括:针对多个对象中的未移动对象,确定针对未移动对象的环境信息;将环境信息输入移动顺序确定模型,获得针对多个对象的概率信息;以及根据概率信息,从未移动对象中选择目标对象,以控制目标对象移动至目标区域中针对目标对象的子区域,其中,移动顺序确定模型是采用本公开提供的移动顺序确 ...
【技术保护点】
【技术特征摘要】
1.一种移动顺序确定模型的训练方法,包括:针对多个第一对象中的未移动对象,确定针对所述未移动对象的环境信息;将所述环境信息输入移动顺序确定模型,获得针对所述多个第一对象的预测概率信息;根据所述预测概率信息,确定针对所述移动顺序确定模型的第一奖励信息;以及根据所述第一奖励信息,训练所述移动顺序确定模型,其中,所述预测概率信息包括所述多个第一对象中的每个第一对象作为目标对象的概率值。2.根据权利要求1所述的方法,还包括:根据多个第二对象移动至第二目标区域的历史移动信息,对所述移动顺序确定模型预训练,其中,所述历史移动信息包括所述多个第二对象的移动顺序,以及在所述多个第二对象中的每个第二对象移动之前所确定的针对未移动对象的环境信息。3.根据权利要求1所述的方法,还包括:根据所述多个第一对象中的未移动对象,确定针对所述多个第一对象的掩膜信息;其中,所述掩膜信息包括针对所述每个第一对象的掩膜值;针对所述多个第一对象中已移动对象的掩膜值为零,针对所述未移动对象的掩膜值为大于零的值;其中,所述将所述环境信息输入移动顺序确定模型,获得针对所述未移动对象的预测概率信息包括:将所述环境信息输入移动顺序确定模型,得到针对所述多个第一对象的初始概率信息;以及根据所述掩膜信息和所述初始概率信息,确定所述预测概率信息。4.根据权利要求1所述的方法,还包括:响应于所述多个第一对象中不存在未移动对象,根据所述多个第一对象分别移动至对应的子区域的移动信息,确定针对所述移动顺序确定模型的第二奖励信息;以及根据所述第二奖励信息,训练所述移动顺序确定模型。5.根据权利要求1所述的方法,其中,所述根据所述预测概率信息,确定针对所述移动顺序确定模型的第一奖励信息包括:根据所述预测概率信息,确定所述未移动对象中的目标对象;以及根据所述目标对象移动至对应的子区域的移动信息与理想移动信息之间的差异,确定针对所述移动顺序确定模型的第一奖励信息。6.根据权利要求1所述的方法,其中,确定针对所述未移动对象的环境信息包括:确定针对所述多个第一对象的第一目标区域的状态信息;其中,所述状态信息指示所述第一目标区域包括的多个子区域中每个子区域的通行状态;所述多个子区域包括对应所述每个第一对象的子区域;以及针对所述每个第一对象,根据所述每个第一对象移动至对应的子区域的最短路径,确定针对所述每个第一对象的属性信息。7.根据权利要求6所述的方法,其中,所述根据所述每个未移动对象移动至对应的子区域的最短路径,确定针对所述每个未移动对象的属性信息包括以下至少之一:
根据所述每个第一对象移动至对应的子区域的最短路径,确定所述每个第一对象移动至对应的子区域的最短耗时;根据所述每个第一对象移动至对应的子区域的最短路径和除所述每个第一对象外的其他未移动对象移动至对应的子区域的最短路径,确定指示最短路径是否存在交叉点的属性信息。8.一种确定移动顺序的方法,包括:针对多个对象中的未移动对象,确定针对所述未移动对象的环境信息;将所述环境信息输入移动顺序确定模型,获得针对所述多个对象的概率信息;以及根据所述概率信息,从所述未移动对象中选择目标对象,以控制所述目标对象移动至所述目标区域中针对所述目标对象的子区域,其中,所述移动顺序确定模型是采用权利要求1~7中任一项所述的方法训练得到的,所述概率信息包括所述多个对象中的每个对象属于所述目标对象的概率值。9.一种移动顺序确定模型的训练装置,包括:信息确定模块,用于针对多个第一对象中的未移动对象,确定针对所述未移动对象的环境信息;概率获得模块,用于将所述环境信息输入移动顺序确定模型,获得针对所述多个第一对象的预测概率信息;第一奖励确定模块,用于根据所述预测概率信息,确定针对所述移动顺序确定模型的第一奖励信息;以及第一训练模块,用于根据所述第一奖励信息,训练...
【专利技术属性】
技术研发人员:丁建辉,陈珍,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。