训练动作规划模型的方法及目标搜索方法技术

技术编号：21715333 阅读：28 留言：0更新日期：2019-07-27 19:27

本发明专利技术涉及目标搜索技术领域，具体涉及训练动作规划模型及目标搜索的方法，方法包括：获取当前测试图像、目标对象以及当前步数；获取预测的边界框以及目标对象的边界框；基于预测的边界框以及目标对象的边界框的大小关系，确定当前动作规划的奖赏；将当前测试图像、目标对象以及当前步数输入动作规划模型，预测出下一步动作的概率分布及其对应的奖赏；根据当前动作规划的奖赏、下一步动作的概率分布以其对应的奖赏，对策略网络以及价值网络的进行强化学习。在预测的边界框以及目标对象的实际边界框的基础上，确定当前动作规划的奖赏；利用预测结果对策略网络以及价值网络进行强化学习，以使得策略网络以及价值网络达到最优，具有较高的搜索效率。

Training Action Planning Model and Object Search Method

全部详细技术资料下载

【技术实现步骤摘要】
训练动作规划模型的方法及目标搜索方法
本专利技术涉及目标搜索
，具体涉及训练动作规划模型的方法及目标搜索方法。
技术介绍
目标搜索(检测与定位)这一任务是计算机视觉的基础任务，其目的是根据给出的图片找出图片中的目标物体，并给出其位置及其边界框等信息。这一任务在现实生活中可以应用于智慧交通，智能安防等方面。近年来，随着人工智能与深度学习的发展，使得传统的目标搜索任务在性能与速度上都取得了显著性的成果。然而，由于摄像机安装在固定的位置，其只能被动地接收视觉信息，这将会导致传统的目标搜索任务受到摄像机设置的制约。例如，目标离摄像头较远，摄像头难以检测到该目标；或者，目标对象超出摄像头的可视范围等等。这些将会导致目标搜索任务是在单个图像上孤立地执行的，影响目标搜索的效率。
技术实现思路
有鉴于此，本专利技术实施例提供了一种训练动作规划模型的方法及目标搜索方法，以解决目标搜索的效率较低的问题。根据第一方面，本专利技术实施例提供了一种训练动作规划模型的方法，包括：获取当前测试图像、目标对象以及当前步数；获取预测的边界框以及所述目标对象的边界框；其中，所述预测的边界框是基于所述当前测试图像预测得到的；基于所述预测的边界框以及所述目标对象的边界框的大小关系，确定当前动作规划的奖赏；将当前测试图像、目标对象以及当前步数输入所述动作规划模型，预测出下一步动作的概率分布及其对应的奖赏；其中，所述动作规划模型包括策略网络以及价值网络，所述下一步动作的概率分布对应于所述策略网络，所述概率分布对应的奖赏对应于所述价值网络；根据所述当前动作规划的奖赏、所述下一步动作的概率分布以其对应...

【技术保护点】
1.一种训练动作规划模型的方法，其特征在于，包括：获取当前测试图像、目标对象以及当前步数；获取预测的边界框以及所述目标对象的边界框；其中，所述预测的边界框是基于所述当前测试图像预测得到的；基于所述预测的边界框以及所述目标对象的边界框的大小关系，确定当前动作规划的奖赏；将当前测试图像、目标对象以及当前步数输入所述动作规划模型，预测出下一步动作的概率分布及其对应的奖赏；其中，所述动作规划模型包括策略网络以及价值网络，所述下一步动作的概率分布对应于所述策略网络，所述概率分布对应的奖赏对应于所述价值网络；根据所述当前动作规划的奖赏、所述下一步动作的概率分布以其对应的奖赏，对所述策略网络以及所述价值网络的进行强化学习，以训练所述动作规划模型；其中，所述动作规划模型用于预测下一步动作。

【技术特征摘要】
1.一种训练动作规划模型的方法，其特征在于，包括：获取当前测试图像、目标对象以及当前步数；获取预测的边界框以及所述目标对象的边界框；其中，所述预测的边界框是基于所述当前测试图像预测得到的；基于所述预测的边界框以及所述目标对象的边界框的大小关系，确定当前动作规划的奖赏；将当前测试图像、目标对象以及当前步数输入所述动作规划模型，预测出下一步动作的概率分布及其对应的奖赏；其中，所述动作规划模型包括策略网络以及价值网络，所述下一步动作的概率分布对应于所述策略网络，所述概率分布对应的奖赏对应于所述价值网络；根据所述当前动作规划的奖赏、所述下一步动作的概率分布以其对应的奖赏，对所述策略网络以及所述价值网络的进行强化学习，以训练所述动作规划模型；其中，所述动作规划模型用于预测下一步动作。2.根据权利要求1所述的方法，其特征在于，所述基于所述预测的边界框以及所述目标对象的边界框，确定所述动作规划的奖赏，包括：计算所述预测的边界框与所述目标对象的边界框的交并比；利用所述交并比以及最大步数，确定所述当前动作规划的奖赏。3.根据权利要求2所述的方法，其特征在于，所述利用所述交并比以及最大步数，确定所述当前动作规划的奖赏，包括：利用所述交并比以及所述最大步数，计算主动搜索的奖赏；获取步数约束的奖赏；计算所述主动搜索的奖赏与所述步数约束的奖赏之和，得到所述当前动作规划的奖赏。4.根据权利要求3所述的方法，其特征在于，采用如下公式计算所述主动搜索的奖赏：其中，Rt为所述主动搜索的奖赏；Ut为所述交并比；C1、C2分别为第一常数以及第二常数；t为所述当前步数；Tmax为所述最大步数。5.根据权利要求1所述的方法，其特征在于，所述将当前测试图像、目标对象以及当前步数输入所述动作规划模型，预测出下一步动作的概率分布以其对应的奖赏，包括：将所述当前测试图像以及所述目标对象的特征结合，并送入长短期记忆网络，以得到所述长短期记忆网络的隐含层信息；其中，所述隐含层信息为所记忆的场景信息；将所述长短期记忆网络的隐含层信息与所述当前步数的特征结合，形成全局特征；将所述全局特征分别输入所述价值网络以及所述策略网络，以得到所述下一步动作的概率分以及所述概率分布对应的奖赏。6.根据权利要求1所述的方法，其特征在于，所述策略网络的损失函数为：Lθ＝J(θ)-αH(πθ(at|st))；式中，其中，Lθ为所述策略网络...

【专利技术属性】
技术研发人员：陈添水，吴捷，黄丽珊，梁小丹，林倞，
申请(专利权)人：暗物智能科技广州有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人