一种基于端到端深度学习进行对象一致性检测方法技术

技术编号:17780362 阅读:28 留言:0更新日期:2018-04-22 09:12
本发明专利技术提出了一种基于端到端深度学习进行对象一致性检测方法,旨在同时找到图像中对象的位置,类别和一致性,采用兴趣区域对齐层从图像特征图正确计算兴趣区域的特征,利用卷积层序列将RoI特征图上采样到高分辨卷积层获得一致性图,采用鲁棒策略调整训练模型来监督其一致性。对象检测用于对象定位,一致性检测将对象中的每个像素分配给其一致性标签,使用多任务损失进行训练包围盒分类、位置和一致性的映射,最后训练和推理获得一致性标签。本发明专利技术采用端到端深度学习,使用多任务损失函数联合优化对象检测和一致性检测,不需要额外信息,降低了训练和测试过程中的复杂性,有效地提高了检测的准确性,适用于实时机器人的应用。

【技术实现步骤摘要】
一种基于端到端深度学习进行对象一致性检测方法
本专利技术涉及计算机视觉领域,尤其是涉及了一种基于端到端深度学习进行对象一致性检测方法。
技术介绍
在计算机视觉中,同时检测对象和分割对象越来越受欢迎,对象可以通过各种视觉属性例如颜色、形状或物理属性例如重量、体积和材料进行描述,这些属性对于识别对象或将其分类到不同的类别是有用的,在许多机器人应用中,识别对象一致性是至关重要的,然而机器人可能依然需要更多信息来完成任务,机器人不仅必须检测对象一致性,而且也要能够定位和识别相关的对象。对象一致性检测作为新兴课题,在许多领域有着实用性发展,例如场景理解、视频搜索、物体检测、行为分析、三维场景重建、人机交互等方面,特别地,在交通领域中的无人驾驶、智能家居中的对象检测、医疗诊断中的人机交互等都具有广阔的应用前景。理解对象或对象一致性不同于仅描述对象的视觉物理属性,还需要获得对象一致性信息以及和人类的交互,因此,理解对象一致性是自主机器人与对象交互并协助人们进行各种日常工作的关键。然而,检测对象的一致性比传统的语义分割问题更为困难,两个具有不同外观的对象可能具有相同的一致性标签,因为一致性标签是基于人类对对象行为的抽象概念,另外,对于一致性进行实时检测以及对无法看见对象的概括也是至关重要的。现有常用方法使用两个连续的深层神经网络,非常耗时,不适用于实时应用。本专利技术提出了一种基于端到端深度学习进行对象一致性检测方法,旨在同时找到图像中对象的位置,类别和一致性,采用兴趣区域对齐层(RoIAlign)从图像特征图正确计算兴趣区域(RoI)的特征,利用卷积层序列将RoI特征图上采样到高分辨卷积层获得一致性图,采用鲁棒策略调整训练模型来监督其一致性。对象检测用于对象定位,一致性检测将对象中的每个像素分配给其一致性标签,使用多任务损失进行训练包围盒分类、位置和一致性的映射,最后训练和推理获得一致性标签。本专利技术采用端到端深度学习,使用多任务损失函数联合优化对象检测和一致性检测,不需要额外信息,降低了训练和测试过程中的复杂性,有效地提高了检测的准确性,适用于实时机器人的应用。
技术实现思路
针对耗时间、不适用于实时应用的问题,本专利技术采用端到端深度学习,使用多任务损失函数联合优化对象检测和一致性检测,不需要额外信息,降低了训练和测试过程中的复杂性,有效地提高了检测的准确性,适用于实时机器人的应用。为解决上述问题,本专利技术提供一种基于端到端深度学习进行对象一致性检测方法,主要包括:问题定式化(一);一致性网络架构(二);多任务损失(三);训练和推理(四)。其中,所述的问题定式化,框架旨在同时找到对象的位置,对象类别和图像中的对象的一致性,按照计算机视觉中的标准设计,对象的位置由相对于图像的左上角矩形定义,对象类别由矩形框定义,在矩形框内的每个像素编码其一致性,物体像素区域具有相同的功能,认为是一致的,理想情况下,检测图像中的所有相关对象,并将这些对象中的每个像素映射到最可能的一致性标签。其中,所述的一致性网络架构,有三个主要组成部分:1)兴趣区域对齐层(RoIAlign)用于从图像特征图正确计算兴趣区域(RoI)的特征;2)卷积层序列将RoI特征图上采样到高分辨卷积层获得光滑、细腻的一致性图;3)采用鲁棒策略调整训练模型来监督其一致性。进一步地,所述的兴趣区域对齐层(RoIAlign),区域建议网络(RPN)基于区域进行目标探测,该网络与主卷积骨干共享权重,输出不同大小的包围盒,每个RoI使用RoIPool层从图像特征图集合层中汇集成固定大小的小特征映射(例如7×7),RoIAlign层适当地将提取的特征与RoI对齐,不使用舍入操作,RoIAlign层采用双线性插值计算每个RoI格子中规则采样位置的内插值,使用最大运算来聚合结果,避免RoI和提取的特征之间的失调。进一步地,所述高分辨卷积层,使用小的固定大小的模型(例如14×14或28×28)来表示对象分割模型,RoI的每个预测模型中的像素值是二进制的,即前景和背景,因为每个对象中都有多个一致性类,使用小型模型在提供检测问题中不能很好地工作,故使用解卷积层来实现高分辨率一致性模型,形式上,给定输入特征图尺寸为Si,解卷积层执行与卷积层相反的操作,为了构建更大的输出图尺寸So,Si与So的关系为:So=s*(Si-1)+Sf-2*d(1)其中Sf是过滤器尺寸;s和d分别是步幅和填充参数;实际上,RoIAlign层输出尺寸为7×7的特征图,使用三个解卷积层将该图上采样到更高的分辨率,第一个解卷积层填充参数d=1,步幅s=1,内核大小Sf=8,创建尺寸为30×30的图,类似地,第二层参数为(d=1,s=4,Sf=8),第三层参数为(d=1,s=2,Sf=4)创建尺寸为244×244的最终高分辨率图,在每个解卷积层之前,使用卷积层来学习特征将用于去卷积,卷积层可以看作是两个连续的解卷积层之间的适配。进一步地,所述的训练模型,一致性模型检测分支需要一个固定的尺寸(例如244×244)监督训练,使用单个阈值在一致性检测问题中不起作用,故提出多阈值策略调整尺寸,给定一个原始对照组模型,在不失一般性的情况下,设模型中n个独立标签P=(c0,c1,…,cn-1),将P中的值线性映射设为使用从P到的映射来将原始模型转化为新的模型;将转换的模型调整为预定义的模型尺寸,并在调整尺寸的模型上使用阈值,如下所示:其中,ρ(x,y)是调整模型的像素值;是的值中的一个;α是超级参数,设为0.005;将阈值模型中的值重新映射到原始标签值(通过使用从到P的映射)来实现对象训练模型。进一步地,所述的端到端深度学习,网络由两个分支组成,用于对象检测和一致性检测,给定输入图像,使用VGG16网络作为骨干从图像中提取深层特征,然后使用与卷积骨架共享权重的RPN来生成候选包围盒(RoIs),对于每个RoI,RoIAlign层提取并将其相应的特征汇聚到一个7×7大小的特征图中,在对象检测分支中,使用两个完全连接的层,每层都有4096个神经元,其次分类层对对象进行分类,回归层回归对象位置;在一致性检测分支中,7×7大小的特征图上采样放大到244×244获得高分辨率图,使用softmax层将244×244映射中的每个像素分配给其最可能的一致性类,整个网络使用多任务丢失函数进行端到端的训练。其中,所述的多任务损失,端到端架构中,在K+1个对象类型分类层输出概率分布p=(p0,…,pK),p是softmax层的输出,回归层输出K+1个包围盒回归偏移(每个偏移包括框中心和框大小):每个偏移量tk对应于每个类别k,对tk进行参数化,tk指定一个尺度不变的转化,高度/宽度相对移位关系RPN包围盒,一致性检测分支输出每个像素i的RoI内一组概率分布m={mi}i∈RoI,其中是在包括背景的C+1一致性标签上定义的softmax层输出;使用一个多任务损失L进行联合训练包围盒分类、包围盒位置和一致性映射,如下:L=Lcls+Lloc+Laff(3)其中Lcls定义为分类层的输出,Lloc定义为回归层的输出,Laff定义为一致性检测分支的输出。进一步地,每个RoI的预测对象是对照组对象类u,对照组包围盒偏移υ和目标一致性模型s,训练数据集提供u和υ的值本文档来自技高网
...
一种基于端到端深度学习进行对象一致性检测方法

【技术保护点】
一种基于端到端深度学习进行对象一致性检测方法,其特征在于,主要包括问题定式化(一);一致性网络架构(二);多任务损失(三);训练和推理(四)。

【技术特征摘要】
1.一种基于端到端深度学习进行对象一致性检测方法,其特征在于,主要包括问题定式化(一);一致性网络架构(二);多任务损失(三);训练和推理(四)。2.基于权利要求书1所述的问题定式化(一),其特征在于,框架旨在同时找到对象的位置,对象类别和图像中的对象的一致性,按照计算机视觉中的标准设计,对象的位置由相对于图像的左上角矩形定义,对象类别由矩形框定义,在矩形框内的每个像素编码其一致性,物体像素区域具有相同的功能,认为是一致的,理想情况下,检测图像中的所有相关对象,并将这些对象中的每个像素映射到最可能的一致性标签。3.基于权利要求书1所述的一致性网络架构(二),其特征在于,一致性网络架构的三个主要组成部分:1)兴趣区域对齐层(RoIAlign)用于从图像特征图正确计算兴趣区域(RoI)的特征;2)卷积层序列将RoI特征图上采样到高分辨卷积层获得光滑、细腻的一致性图;3)采用鲁棒策略调整训练模型来监督其一致性。4.基于权利要求书3所述的兴趣区域对齐层(RoIAlign),其特征在于,区域建议网络(RPN)基于区域进行目标探测,该网络与主卷积骨干共享权重,输出不同大小的包围盒,每个RoI使用RoIPool层从图像特征图集合层中汇集成固定大小的小特征映射(例如7×7),RoIAlign层适当地将提取的特征与RoI对齐,不使用舍入操作,RoIAlign层采用双线性插值计算每个RoI格子中规则采样位置的内插值,使用最大运算来聚合结果,避免RoI和提取的特征之间的失调。5.基于权利要求书3所述高分辨卷积层,其特征在于,使用小的固定大小的模型(例如14×14或28×28)来表示对象分割模型,RoI的每个预测模型中的像素值是二进制的,即前景和背景,因为每个对象中都有多个一致性类,使用小型模型在提供检测问题中不能很好地工作,故使用解卷积层来实现高分辨率一致性模型,形式上,给定输入特征图尺寸为Si,解卷积层执行与卷积层相反的操作,为了构建更大的输出图尺寸So,Si与So的关系为:So=s*(Si-1)+Sf-2*d(1)其中Sf是过滤器尺寸;s和d分别是步幅和填充参数;实际上,RoIAlign层输出尺寸为7×7的特征图,使用三个解卷积层将该图上采样到更高的分辨率,第一个解卷积层填充参数d=1,步幅s=1,内核大小Sf=8,创建尺寸为30×30的图,类似地,第二层参数为(d=1,s=4,Sf=8),第三层参数为(d=1,s=2,Sf=4)创建尺寸为244×244的最终高分辨率图,在每个解卷积层之前,使用卷积层来学习特征将用于去卷积,卷积层可以看作是两个连续的解卷积层之间的适配。6.基于权利要求书3所述的训练模型,其特征在于,一致性模型检测分支需要一个固定的尺寸(例如244×244)监督训练,使用单个阈值在一致性检测问题中不起作用,故提出多阈值策略调整尺寸,给定一个原始对照组模型,在不失一般性的情况下,设模型中n个独立标签P=(c0,c1,…,cn-1),将P中的值线性映射设为使用从P到的映射来将原始模型转化为新的模型;将转换的模型调整为预定义的模型尺寸,并在调整尺寸的模型上使用阈值,如下所示:其中,ρ(x,y)是调整模型的像素值;是的值中的一个;α是超级参数,设为0.005;将阈值模型中的值重新映射到原始标签值(通过使用从到P的映射)来实现对象训练模型。7.基于权利要求书1所述的端到端深度学习,其特征在于,网络由两个分支组成,用于对象检测和一致性检测,给定输入图像,使用VGG16网络作为骨干从图像中提取深层特征,然后使用与卷积骨架共享权重的RPN来生成候选包围盒(RoIs),对于每个RoI,RoIAlign层提取并将其相应的特征汇聚到一个7×7大小的特征图中,在对象检测分支中,使用两个完全连接的层,每层都有4096个神经元,其次分类层对对象进行分类,回归层回归对象位置;在一致性检测分支中,7×7大小的特征图上采样放大到244×244获得高分辨率图,使用softmax层将244×244...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1