级联卷积神经网络训练和图像检测方法、装置及系统制造方法及图纸

技术编号：13986885 阅读：170 留言：0更新日期：2016-11-13 04:19

本发明专利技术公开一种级联卷积神经网络训练和图像检测方法、装置及系统，其中，所述训练方法包括：将待学习图像至少局部区域的图像数据分别处理成N种不同大小的输入区域的图像数据，N为大于或等于2的整数；分别将N种输入区域的图像数据作为N级级联的卷积神经网络中各级卷积神经网络的输入，对各级卷积神经网络进行训练；将各级卷积神经网络分别输出的至少一训练结果进行关联，并将关联后的训练结果回传至各级卷积神经网络以调整各级神经网络的参数。在将训练结果传播至各级卷积神经网络时，能够调整各级神经网络的参数，使得级联卷积神经网络在训练时能够达到神经网络参数的全局优化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像数据处理领域，具体涉及一种级联卷积神经网络训练和图像检测方法、装置及系统。
技术介绍
物体检测即对于输入的图片，精确地检测出所有某类物体的位置，在计算机视觉和模式识别领域中占有重要地位。传统的基于卷积神经网络的物体检测方法，首先在图片上选出一系列位置、大小不同的待检测区域，然后将该区域直接输入一个卷积神经网络，得到分类结果。通过适当设计卷积神经网络的结构，可以让计算机直接学习出图片中的隐藏特征，避免了人工设计特征，能更广泛地应用到各种类别物体的检测中。但是由于卷积神经网络的计算时间往往比人工设计特征的计算时间长许多，因此在检测时会面临检测速度与检测效果不可兼得的矛盾。对于基于卷积神经网络的物体检测方法，目前常见的是单级多层卷积神经网络。由于分类效果较好的单级卷积神经网络结构较复杂，检测每个区域的时间较长，如果在选择待检测区域时采用全面覆盖图片的滑动窗口选择法，则检测速度较慢；如果采用针对图片某些特征设计的算法选择最可能包含物体的少量区域，则检测速度有所提高，但在选择区域阶段可能漏掉某些包含物体的区域。对于物体检测问题，由于数据标注非常耗费人力、时间，数据集中往往负样本很多，正样本很少。在训练时，由于正负样本分布不均衡，训练效果往往较差。级联卷积神经网络通过使用小型的、复杂度递增的多级多层神经网络，可以在使用滑动窗口选择法的同时提高检测速度，并对不同级的网络提供不同比例的正负样本训练，在一定程度上缓解上述的两个问题。但是在传统的级联网络中，不同级的神经网络通常分开训练，只能使每一级神经网络达到局部优化，多级多层神经网络的整体性能不理想。专...

【技术保护点】
一种级联卷积神经网络训练方法，其特征在于，包括：将待学习图像至少局部区域的图像数据分别处理成N种不同大小的输入区域的图像数据，所述N为大于或等于2的整数；分别将所述N种输入区域的图像数据作为N级级联的卷积神经网络中各级卷积神经网络的输入，对各级卷积神经网络进行训练，其中，所述N级级联的卷积神经网络中的每一级卷积神经网络分别与所述N种输入区域的一种输入区域对应；将各级卷积神经网络分别输出的至少一训练结果进行关联，并将关联后的训练结果回传至各级卷积神经网络以调整各级神经网络的参数。

【技术特征摘要】
1.一种级联卷积神经网络训练方法，其特征在于，包括：将待学习图像至少局部区域的图像数据分别处理成N种不同大小的输入区域的图像数据，所述N为大于或等于2的整数；分别将所述N种输入区域的图像数据作为N级级联的卷积神经网络中各级卷积神经网络的输入，对各级卷积神经网络进行训练，其中，所述N级级联的卷积神经网络中的每一级卷积神经网络分别与所述N种输入区域的一种输入区域对应；将各级卷积神经网络分别输出的至少一训练结果进行关联，并将关联后的训练结果回传至各级卷积神经网络以调整各级神经网络的参数。2.如权利要求1所述的级联卷积神经网络训练方法，其特征在于，所述对各级卷积神经网络进行训练，包括：根据第1级卷积神经网络最后一层的输出，得到所述第1级卷积神经网络的特征向量；根据第n级卷积神经网络最后一层的输出和所述第n-1级卷积神经网络的特征向量，得到第n级卷积神经网络的特征向量，其中，所述n为正整数，且1＜n≤N。3.如权利要求1或2所述的级联卷积神经网络训练方法，其特征在于，所述对各级卷积神经网络进行训练，包括：至少分别求取各级卷积神经网络的本级损失；将各级卷积神经网络分别输出的至少一训练结果进行关联，包括：至少对各级卷积神经网络分别输出的本级损失进行加权求和，得到所述N级级联的卷积神经网络的全局损失。4.一种基于级联卷积神经网络的图像检测方法，其特征在于，包括：获取待检测图像的图像数据；将所述待检测图像的图像数据作为如权利要求1-3任意一项所述的训练方法建立的神经网络模型的输入对所述待检测图像进行检测，得到所述待检测图像的检测结果。5.如权利要求4所述的基于级联卷积神经网络的图像检测方法，其特征在于，在所述获取待检测图像的图像数据之后，还包括：将所述图像数据划分成多个区域得到各个区域的图像数据；将所述待检测图像的图像数据作为神经网络模型的输入对所述待检测图像进行检测，得到所述待检测图像的检测结果，包括：分别将所述各个区域的图像数据依...

【专利技术属性】
技术研发人员：秦红伟，闫俊杰，
申请(专利权)人：北京市商汤科技开发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人