训练动作规划模型的方法及目标搜索方法技术

技术编号:21715333 阅读:28 留言:0更新日期:2019-07-27 19:27
本发明专利技术涉及目标搜索技术领域,具体涉及训练动作规划模型及目标搜索的方法,方法包括:获取当前测试图像、目标对象以及当前步数;获取预测的边界框以及目标对象的边界框;基于预测的边界框以及目标对象的边界框的大小关系,确定当前动作规划的奖赏;将当前测试图像、目标对象以及当前步数输入动作规划模型,预测出下一步动作的概率分布及其对应的奖赏;根据当前动作规划的奖赏、下一步动作的概率分布以其对应的奖赏,对策略网络以及价值网络的进行强化学习。在预测的边界框以及目标对象的实际边界框的基础上,确定当前动作规划的奖赏;利用预测结果对策略网络以及价值网络进行强化学习,以使得策略网络以及价值网络达到最优,具有较高的搜索效率。

Training Action Planning Model and Object Search Method

【技术实现步骤摘要】
训练动作规划模型的方法及目标搜索方法
本专利技术涉及目标搜索
,具体涉及训练动作规划模型的方法及目标搜索方法。
技术介绍
目标搜索(检测与定位)这一任务是计算机视觉的基础任务,其目的是根据给出的图片找出图片中的目标物体,并给出其位置及其边界框等信息。这一任务在现实生活中可以应用于智慧交通,智能安防等方面。近年来,随着人工智能与深度学习的发展,使得传统的目标搜索任务在性能与速度上都取得了显著性的成果。然而,由于摄像机安装在固定的位置,其只能被动地接收视觉信息,这将会导致传统的目标搜索任务受到摄像机设置的制约。例如,目标离摄像头较远,摄像头难以检测到该目标;或者,目标对象超出摄像头的可视范围等等。这些将会导致目标搜索任务是在单个图像上孤立地执行的,影响目标搜索的效率。
技术实现思路
有鉴于此,本专利技术实施例提供了一种训练动作规划模型的方法及目标搜索方法,以解决目标搜索的效率较低的问题。根据第一方面,本专利技术实施例提供了一种训练动作规划模型的方法,包括:获取当前测试图像、目标对象以及当前步数;获取预测的边界框以及所述目标对象的边界框;其中,所述预测的边界框是基于所述当前测试图像预测得到的;基于所述预测的边界框以及所述目标对象的边界框的大小关系,确定当前动作规划的奖赏;将当前测试图像、目标对象以及当前步数输入所述动作规划模型,预测出下一步动作的概率分布及其对应的奖赏;其中,所述动作规划模型包括策略网络以及价值网络,所述下一步动作的概率分布对应于所述策略网络,所述概率分布对应的奖赏对应于所述价值网络;根据所述当前动作规划的奖赏、所述下一步动作的概率分布以其对应的奖赏,对所述策略网络以及所述价值网络的进行强化学习,以训练所述动作规划模型;其中,所述动作规划模型用于预测下一步动作。本专利技术实施例提供的训练动作规划模型的方法,通过在预测的边界框以及目标对象的实际边界框的基础上,确定当前动作规划的奖赏,再将确定出的奖赏结合到下一步动作的预测中;利用预测结果对策略网络以及价值网络进行强化学习,以使得策略网络以及价值网络达到最优,从而能够保证训练得到的动作规划模型在对目标进行主动搜索的基础上,具有较高的搜索效率。结合第一方面,在第一方面第一实施方式中,所述基于所述预测的边界框以及所述目标对象的边界框,确定所述动作规划的奖赏,包括:计算所述预测的边界框与所述目标对象的边界框的交并比;利用所述交并比以及最大步数,确定所述当前动作规划的奖赏。本专利技术实施例提供的训练动作规划模型的方法,在当前动作规划的奖赏的设计中,通过最大步数的约束,使得训练得到的动作规划模型能够在尽量少的步数的情况下,准确地搜索到目标,从而进一步提高了搜索的效率。结合第一方面第一实施方式,在第一方面第二实施方式中,所述利用所述交并比以及最大步数,确定所述当前动作规划的奖赏,包括:利用所述交并比以及所述最大步数,计算主动搜索的奖赏;获取步数约束的奖赏;计算所述主动搜索的奖赏与所述步数约束的奖赏之和,得到所述当前动作规划的奖赏。本专利技术实施例提供的训练动作规划模型的方法,在当前动作规划的奖赏的设计中,利用主动搜索奖赏和步数约束奖赏的结合,使得训练得到的动作规划模型能够实现准确性和速度之间的权衡。结合第一方面第二实施方式,在第一方面第三实施方式中,采用如下公式计算所述主动搜索的奖赏:其中,Rt为所述主动搜索的奖赏;Ut为所述交并比;C1、C2分别为第一常数以及第二常数;t为所述当前步数;Tmax为所述最大步数。结合第一方面,在第一方面第四实施方式中,所述将当前测试图像、目标对象以及当前步数输入所述动作规划模型,预测出下一步动作的概率分布以其对应的奖赏,包括:将所述当前测试图像以及所述目标对象的特征结合,并送入长短期记忆网络,以得到所述长短期记忆网络的隐含层信息;其中,所述隐含层信息为所记忆的场景信息;将所述长短期记忆网络的隐含层信息与所述当前步数的特征结合,形成全局特征;将所述全局特征分别输入所述价值网络以及所述策略网络,以得到所述下一步动作的概率分以及所述概率分布对应的奖赏。本专利技术实施例提供的训练动作规划模型的方法,通过对当前测试图像以及目标对象进行特征的提取与结合,并利用LSTM中的隐藏信息(即,所存储的记忆状态场景)与当前步数的特征结合,使得形成的全局特征能够与之前的场景状态结合,以避免无尽止的动作。结合第一方面,在第一方面第五实施方式中,所述策略网络的损失函数为:Lθ=J(θ)-αH(πθ(at|st));式中,其中,Lθ为所述策略网络的损失函数;J(θ)为所述策略网络对应的目标函数;πθ(at|st)为所述下一步动作的概率分布;H(πθ(at|st)为πθ(at|st)的熵;α为控制熵正则化项的强度;Vθ(st)为所述概率分布对应的奖赏,Aπ(st,at)为所述策略网络对应的优势函数,所述优势函数由k阶回归和函数逼近估计;γ为折扣系数;rt为所述当前动作规划的奖赏。结合第一方面,在第一方面第六实施方式中,所述价值网络的损失函数为:式中,其中,LV(θ)为所述价值网络的损失函数;Vθ(st)为所述概率分布对应的奖赏;为k阶返回;rt为所述当前动作规划的奖赏;β为常数。根据第二方面,本专利技术实施例还提供了一种目标搜索方法,包括:获取检测图像、目标对象以及当前步数;其中,所述检测图像包括所述目标对象的部分;预测所述检测图像的边界框;基于所述检测图像的边界框与所述目标对象的边界框的大小关系,判断是否需要继续进行目标搜索;当需要继续进行目标搜索时,将所述检测图像、所述目标对象、所述当前步数输入动作规划模型,以预测下一步动作;其中,所述动作规划模型是根据上述第一方面,或第一方面任一项实施方式中所述的训练动作规划模型的方法训练得到的。本专利技术实施例提供的目标搜索方法,通过主动搜索,且在进行动作预测之前进行是否需要继续进行动作预测的判断,以保证尽可能少的动作步骤来找到目标对象。结合第二方面,在第二方面第一实施方式中,所述预测所述检测图像的边界框,包括:检测所述检测图像中所述目标对象的二维预测框;基于所述二维预测框生成截锥体建议框,以提取所述目标对象的截锥体点云;对所述截锥体点云进行三维对象实例分割和三维边界框回归,以预测所述目标对象的三维边界框。结合第二方面,在第二方面第二实施方式中,所述基于所述检测图像的边界框与所述目标对象的边界框的大小关系,判断是否需要继续进行目标搜索,包括:计算所述检测图像的边界框与所述目标对象的边界框的交并比;基于所述交并比与第二常数的大小关系,判断是否需要继续进行目标搜索。根据第三方面,本专利技术实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本专利技术第一方面,或第一方面任一项实施方式中所述的训练动作规划模型的方法,或执行本专利技术第二方面,或第二方面任一项实施方式中所述的目标搜索方法。根据第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本专利技术第一方面,或第一方面任一项实施方式中所述的训练动作规划模型的方法,或执行本专利技术第二方面,或第二方面任一项实施方式本文档来自技高网...

【技术保护点】
1.一种训练动作规划模型的方法,其特征在于,包括:获取当前测试图像、目标对象以及当前步数;获取预测的边界框以及所述目标对象的边界框;其中,所述预测的边界框是基于所述当前测试图像预测得到的;基于所述预测的边界框以及所述目标对象的边界框的大小关系,确定当前动作规划的奖赏;将当前测试图像、目标对象以及当前步数输入所述动作规划模型,预测出下一步动作的概率分布及其对应的奖赏;其中,所述动作规划模型包括策略网络以及价值网络,所述下一步动作的概率分布对应于所述策略网络,所述概率分布对应的奖赏对应于所述价值网络;根据所述当前动作规划的奖赏、所述下一步动作的概率分布以其对应的奖赏,对所述策略网络以及所述价值网络的进行强化学习,以训练所述动作规划模型;其中,所述动作规划模型用于预测下一步动作。

【技术特征摘要】
1.一种训练动作规划模型的方法,其特征在于,包括:获取当前测试图像、目标对象以及当前步数;获取预测的边界框以及所述目标对象的边界框;其中,所述预测的边界框是基于所述当前测试图像预测得到的;基于所述预测的边界框以及所述目标对象的边界框的大小关系,确定当前动作规划的奖赏;将当前测试图像、目标对象以及当前步数输入所述动作规划模型,预测出下一步动作的概率分布及其对应的奖赏;其中,所述动作规划模型包括策略网络以及价值网络,所述下一步动作的概率分布对应于所述策略网络,所述概率分布对应的奖赏对应于所述价值网络;根据所述当前动作规划的奖赏、所述下一步动作的概率分布以其对应的奖赏,对所述策略网络以及所述价值网络的进行强化学习,以训练所述动作规划模型;其中,所述动作规划模型用于预测下一步动作。2.根据权利要求1所述的方法,其特征在于,所述基于所述预测的边界框以及所述目标对象的边界框,确定所述动作规划的奖赏,包括:计算所述预测的边界框与所述目标对象的边界框的交并比;利用所述交并比以及最大步数,确定所述当前动作规划的奖赏。3.根据权利要求2所述的方法,其特征在于,所述利用所述交并比以及最大步数,确定所述当前动作规划的奖赏,包括:利用所述交并比以及所述最大步数,计算主动搜索的奖赏;获取步数约束的奖赏;计算所述主动搜索的奖赏与所述步数约束的奖赏之和,得到所述当前动作规划的奖赏。4.根据权利要求3所述的方法,其特征在于,采用如下公式计算所述主动搜索的奖赏:其中,Rt为所述主动搜索的奖赏;Ut为所述交并比;C1、C2分别为第一常数以及第二常数;t为所述当前步数;Tmax为所述最大步数。5.根据权利要求1所述的方法,其特征在于,所述将当前测试图像、目标对象以及当前步数输入所述动作规划模型,预测出下一步动作的概率分布以其对应的奖赏,包括:将所述当前测试图像以及所述目标对象的特征结合,并送入长短期记忆网络,以得到所述长短期记忆网络的隐含层信息;其中,所述隐含层信息为所记忆的场景信息;将所述长短期记忆网络的隐含层信息与所述当前步数的特征结合,形成全局特征;将所述全局特征分别输入所述价值网络以及所述策略网络,以得到所述下一步动作的概率分以及所述概率分布对应的奖赏。6.根据权利要求1所述的方法,其特征在于,所述策略网络的损失函数为:Lθ=J(θ)-αH(πθ(at|st));式中,其中,Lθ为所述策略网络...

【专利技术属性】
技术研发人员:陈添水吴捷黄丽珊梁小丹林倞
申请(专利权)人:暗物智能科技广州有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1