用于CNN网络适配和对象在线追踪的方法和系统技术方案

技术编号：19247296 阅读：20 留言：0更新日期：2018-10-24 09:03

公开用于CNN网络适配和对象在线追踪的方法、设备及系统。所述CNN网络适配方法包括：将第一特征图转换为多个子特征图，其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成；将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图；逐帧训练所述多个适配卷积核。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于CNN网络适配和对象在线追踪的方法和系统
本公开涉及用于卷积神经网络(CNN)网络适配和对象在线追踪的方法、设备和系统。
技术介绍
视觉追踪是计算机视觉中的基础性问题，已受到越来越多的关注。对于不依赖于模型的对象追踪问题，第一帧中的边界框指示类别不明的目标，且追踪器用于在每一后续帧中定位目标。由于由突然运动、变形、遮挡和光照变化引起的目标外观的显著改变，视觉追踪仍然是具有挑战性的问题。先前的方法依赖于人工编辑的特征来描述目标，且在一定程度上解决了上述具有挑战性的问题。最近，在大规模图像分类数据集上训练的深度CNN已经取得了巨大成功。由学习过程发现的这些语义表示被证明对区分各种类别的对象非常有效。然而，对具有数百万参数的深度CNN进行有监督的训练需要大量的带注释的训练样本。为了利用有限数量的训练样本将深度CNN应用于各项任务，先前方法采用迁移学习方法，即首先在具有大规模训练数据集的源任务上预训练深度CNN，然后在目标任务上对学习得到的特征进行微调。由于CNN特征在不同数据集上具有良好的泛化能力，因此这种迁移学习方法是有效的，且已在许多应用中显示出与当前科技水平匹配的性能。然而，对于在线视觉追踪，由于仅在第一帧中提供了具有真值(groundtruth)标记的训练样本，且用于更新追踪器的追踪结果也是以顺序方式获得，所以缺乏训练样本的问题变得更加严重。因此，直接在线微调预训练的深度CNN容易过拟合，这会使追踪器性能下降并逐渐导致追踪漂移。
技术实现思路
下文呈现本公开的简要概述，以便提供对本公开的一些方面的基本理解。此概述并非本公开的详尽综述。该概述既不旨在确定本...

【技术保护点】
1.一种用于使预训练的CNN适配目标视频的方法，包括：将第一特征图转换为多个子特征图，其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成；将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图；以及逐帧训练所述多个适配卷积核。

【技术特征摘要】
【国外来华专利技术】1.一种用于使预训练的CNN适配目标视频的方法，包括：将第一特征图转换为多个子特征图，其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成；将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图；以及逐帧训练所述多个适配卷积核。2.根据权利要求1所述的方法，其中所述转换和所述卷积在适配CNN中实施，所述适配CNN包括：第一卷积层，链接到所述预训练的CNN且用于将所述第一特征图转换为所述多个子特征图；以及第二卷积层，链接到所述第一卷积层且用于将每个所述子特征图分别与所述多个适配卷积核中的一个适配卷积核进行卷积。3.根据权利要求2所述的方法，其中所述训练包括：将第一训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第一输出图像，其中所述第一训练样本根据所述目标视频的第一帧而获得；将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差；将所述多个第一训练误差反复地反向传播经过所述预训练的CNN和所述适配CNN以训练所述多个适配卷积核，直到所述多个第一训练误差收敛，其中，获得分别用于经训练的多个适配卷积核的多个参数；将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中；以及根据所述目标视频的后续帧优化被分组到所述候选集中的参数。4.根据权利要求3所述的方法，其中所述优化包括：将第二训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第二输出图像，其中所述第二训练样本根据所述目标视频的第二帧而获得，且所述第二帧在所述第一帧之后；将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得用于所述多个适配卷积核的多个第二训练误差；以及如果任一第二训练误差高于阈值，则执行以下操作：将所述第二训练误差反向传播经过所述预训练的CNN和所述适配CNN以进一步优化所述候选集中的参数；以及将被进一步优化的参数中的至少一个参数传送到所述集成集中。5.根据权利要求1所述的方法，其中每个所述适配卷积核在不同损失准则下训练。6.根据权利要求2所述的方法，其中所述方法还包括：通过掩码层降低所述多个子特征图之间的关联性，其中所述掩码层链接到所述适配CNN的所述第二卷积层。7.根据权利要求6所述的方法，其中所述掩码层包括多个二进制掩码，每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。8.一种用于对象在线追踪的方法，包括：确定目标视频的第一帧中的关注区域(ROI)；将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图；利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络；利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置，其中所述第二帧在所述第一帧之后；利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例；利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络；利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置，其中所述第三帧在所述第二帧之后；以及利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。9.根据权利要求8所述的方法，其中所述适配CNN包括：第一卷积层，链接到所述预训练的CNN且用于将第一特征图转换为多个子特征图，其中所述第一特征图通过所述预训练的CNN根据所述目标视频的任一帧而生成；以及第二卷积层，链接到所述第一卷积层且用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图。10.根据权利要求9所述的方法，其中所述适配CNN通过以下操作来初始化：将第一训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第一输出图像，其中所述第一训练样本根据所述目标视频的第一帧而获得；将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差；将所述多个第一训练误差反复地反向传播经过所述预训练的CNN和所述适配CNN以训练所述多个适配卷积核，直到所述多个第一训练误差收敛，其中，获得分别用于经训练的多个适配卷积核的多个参数；将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中。11.根据权利要求9所述的方法，其中所述适配CNN通过以下操作来更新：将第二训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第二输出图像，其中所述第二训练样本根据所述目标视频的第二帧而获得，且所述第二帧在所述第一帧之后；将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得分别用于所述多个适配卷积核的多个第二训练误差；以及如果任一第二训练误差高于阈值，则执行以下操作：将所述第二训练误差反向传播经过所述预训练的CNN和所述适配CNN以进一步优化所述候选集中的参数；以及将被进一步优化的参数中的至少一个参数传送到所述集成集中。12.根据权利要求9所述的方法，其中每个所述适配卷积核在不同损失准则下训练。13.根据权利要求9所述的方法，其中所述适配CNN还包括掩码层，所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。14.根据权利要求13所述的方法，其中所述掩码层包括多个二进制掩码，每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。15.根据权利要求9所述的方法，其中所述对象的位置通过由所述适配CNN生成的热图来预测，其中，具有最大值的位置被预测为所述对象的位置，且所述最大值被采样为置信度。16.根据权利要求15所述的方法，其中仅当所述置信度高于预定阈值时才执行所述更新。17.根据权利要求8所述的方法，其中待追踪的对象处于所述ROI的中心。18.一种用于使预训练的CNN适配目标视频的系统，包括：存储器，存储可执行组件；以及处理器，电联接到所述存储器以运行所述可执行组件，从而执行以下操作：将第一特征图转换为多个子特征图，其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成；将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图；以及逐帧训练所述多个适配卷积核。19.根据权利要求18所述的系统，其中所述可执行组件包括适配CNN，所述适配CNN包括：第一卷积层，链接到所述预训练的CNN且用于将所述第一特征图转换为所述多个子特征图；以及第二卷积层，链接到所述第一卷积层且用于将每个所述子特征图分别与所述多个适配卷积核中的一个适配卷积核进行卷积。20.根据权利要求19所述的系统，其中所述训练包括：将第一训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第一输出图像，其中所述第一训练样本根据所述目标视频的第一帧而获得；将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差；将所述多个第一训练误差反复地反向传播经过所述预训练的CNN和所述适配CNN以训练所述多个适配卷积核，直到所述多个第一训练误差收敛，其中，获得分别用于经训练的多个适配卷积核的多个参数；将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中；以及根据所述目标视频的后续帧优化被分组到所述候选集中的参数。21.根据权利要求20所述的系统，其中所述优化包括：将第二训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第二输出图像，其中所述第二训练样本根据所述目标视频的第二帧而获得，且所述第二帧在所述第一帧之后；将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得用于所述多个适配卷积核的多个第二训练误差；以及如果任一第二训练误差高于阈值，则执行以下操作：将所述第二训练误差反向传播经过所述预训练的CNN和所述适配CNN以进一步优化所述候选集中的参数；以及将被进一步优化的参数中的至少一个参数传送到所述集成集中。22.根据权利要求18所述的系统，其中每个所述适配卷积核在不同损失准则下训练。23.根据权利要求19所述的系统，其中所述适配CNN还包括掩码层，所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。24.根据权利要求23所述的系统，其中所述掩码层包括多个二进制掩码，每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。25.一种用于对象在线追踪的系统，包括：存储器，存储可执行组件；以及处理器，电联接到所述存储器以运行所述可执行组件，从而执行以下操作：确定目标视频的第一帧中的关注区域(ROI)；将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图；利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络；利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置，其中所述第二帧在所述第一帧之后；利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第...

【专利技术属性】
技术研发人员：王晓刚，王立君，欧阳万里，卢湖川，
申请(专利权)人：北京市商汤科技开发有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人