一种实时检测施工现场图像中多类实体对象的方法及设备技术

技术编号:17995025 阅读:118 留言:0更新日期:2018-05-19 12:10
本发明专利技术公开了一种基于机器视觉的实时检测施工现场多类实体对象的方法及设备,该方法包括:步骤1,利用训练过的卷积神经网络从施工现场的原始图像中提取特征图像;步骤2,使用区域建议网络从特征图像中提取候选区域;步骤3,在快速卷积神经网络中使用候选区域;步骤4,使区域建议网络和快速卷积神经网络共享卷积层,得到实时卷积神经网络;步骤5,利用实时卷积神经网络识别待检测的施工现场图像中的实体对象。本发明专利技术的设备包括用于执行上述方法的计算机程序。本发明专利技术能够实时识别施工现场的多类实体对象,为复杂环境下建筑工程施工全过程进度、安全管理提供重要基础。

A method and equipment for real-time detection of multi class entity objects in construction site images

The invention discloses a method and equipment for real-time detection of multi class entity objects in a construction site based on machine vision. The method includes: Step 1, extracting feature images from the original image of the construction site by the trained convolution neural network; step 2, using the area recommended network to extract candidate regions from the feature images; Step 3, the candidate region is used in the fast convolution neural network; step 4, the area suggested network and the fast convolution neural network share the convolution layer, and the real time convolution neural network is obtained; step 5, the real object in the construction site image is identified by the real time convolution neural network. The apparatus of the invention includes a computer program for carrying out the above method. The invention can identify the multi class entity objects on the construction site in real time, and provide an important basis for the progress and safety management of the whole construction process in complex environment.

【技术实现步骤摘要】
一种实时检测施工现场图像中多类实体对象的方法及设备
本专利技术属于建筑工程信息化领域,更具体地,涉及一种实时检测施工现场图像中多类实体对象的方法及设备。
技术介绍
施工环境的动态性和复杂性致使工程建设期间的事故数和死亡人数始终居高不下,而不安全行为和不安全状态是造成事故发生的两个直接原因。如果施工中的不安全行为和状态可以被实时地监控和了解,无疑将提高安全绩效。实时识别工地视频监控中施工作业涉及的人、机械和材料等施工对象,对于充分了解复杂建筑工地的不安全行为至关重要。同时,图像/视频中的目标检测也是生产率测量和进度监测的基础。尽管如此,研究学者对施工环境中的目标检测关注度不够,相关研究较少。最初的研究关注于一类或两类施工对象的检测,存在明显缺陷:(1)对于涉及众多种类的机械、材料等施工对象的复杂工地显然是不够的;(2)由于对整个图像区域缺乏综合检测,特定应用将受到很大限制。由于目前识别两类以上施工对象的研究仍然很少,而且在应用于设备和工人的检测时,局限于机器视觉的传统范式,有效性、综合性地提取特征受很大的限制,模型泛化能力差,此外,由于现有方法依赖于手动的特征提取,且无法进行计算量大的处理,不能做到实时识别。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种实时检测施工现场图像中实体对象的方法,通过将快速卷积神经网络与区域建议网络有机融合,建立实时卷积神经网络,从而得到用于多类施工现场对象检测的深度学习模型,达到从施工现场图像中实时检测多个实体的目的。为了实现上述目的,本专利技术提供了一种实时检测施工现场图像中多类实体对象的方法,包括如下步骤:步骤1:通过预先标记出实体对象的施工现场图像训练卷积神经网络,利用训练完成的卷积神经网络从施工现场的原始图像中提取特征图像;步骤2:使用区域建议网络从特征图像中提取候选区域;步骤3:将步骤2提取出的候选区域输入快速卷积神经网络进行训练,得到检测网络;在快速卷积神经网络中对候选区域的最后一个卷积层的特征图像进行池化处理,为每个候选区域生成固定长度的特征向量roi_pool5;将roi_pool5输入到快速卷积神经网络中的全连接层,以生成最终应用于多任务学习和计算多任务损失的特征,并使区域建议网络与快速卷积神经网络共享卷积层;步骤4:利用步骤3建立的检测网络将区域建议网络初始化,然后固定区域建议网络和快速卷积神经网络共享的卷积层,先微调区域建议网络独有的层,再微调快速卷积神经网络的全连接层,得到实时卷积神经网络;步骤5:利用步骤4得到的实时卷积神经网络,对待检测的施工现场图像进行检测,识别出其中的实体对象。进一步地,对于卷积神经网络中的卷积层,将上一层的输出作为下一层的输入,步骤1中,提取特征图像的方法如下:首先,向首层卷积层输入原始图像,由不同的卷积核向原始图像的x轴方向和y轴方向移动,进行卷积处理,得到初步特征图像;之后,用线性修正函数对初步特征图像进行修正,得到修正特征图像;然后,对修正特征图像进行池化操作、归一化处理,获得该卷积层的基本特征图像,作为下一卷积层的输入;对卷积神经网络中的所有卷积层重复上述过程,获取最终的特征图像。进一步地,步骤2中使用区域建议网络从特征图像中提取候选区域的方法如下:使用ImageNet预训练的模型将区域建议网络初始化,使用初始化后的区域建议网络在步骤1获得的特征图像上进行滑动窗口处理,每个滑动窗口被映射成d维向量,作为框分类层和框回归层的输入;当滑动窗口到达卷积特征矩阵的末尾时,框分类层输出对象/非对象的概率,框回归层则输出表示真实目标框架的变换参数,从而提取出候选区域。进一步地,步骤2包括如下子步骤:2.1使用ImageNet预训练的模型对区域建议网络进行初始化,并对初始化后的区域建议网络进行端到端微调;利用调整后的区域建议网络在步骤1获得的特征图像上进行滑动窗口处理,每个滑动窗口映射为一个d维特征向量;在区域建议网络中,原始图像的候选区域被称为锚框,滑动窗口在特征图象上滑动的每个位置都在原始图像上对应k个不同的锚框,k个锚框对应p种不同尺度以及q种不同长宽比,k=p*q;2.2将d维特征向量输入框分类层和框回归层;框分类层输出2k维向量,表示锚框属于前景和背景的概率,框回归层输出4k维向量,表示真实目标框的变换参数,从而完成候选区域的提取。进一步地,步骤3包括如下子步骤:3.1得到区域建议网络提取的候选区域后,将候选区域输入快速卷积神经网络进行训练,得到检测网络;利用ImageNet预训练的模型将检测网络初始化;使用ROI池化层对候选区域在快速卷积神经网络的最后一层卷积层的特征图像进行处理获得结果特征图,进而为每个候选区域生成固定长度的特征向量roi_pool5;3.2将roi_pool5输入到快速卷积神经网络中的全连接层,以生成最终应用于多任务学习和计算多任务损失的特征,使区域建议网络与快速卷积神经网络共享卷积层;全连接层的输出包括SoftMax损失和回归损失;SoftMax损失是用于计算i+1个类的分类函数,其中,i表示目标类别数量;回归损失是与i+1分类结果相对应的候选区域的边界框的四角坐标。进一步地,步骤4包括如下子步骤:4.1利用步骤3.1的检测网络将区域建议网络初始化,但固定区域建议网络中可供共享的卷积层,并且只微调区域建议网络独有的层,从而使区域建议网络和快速卷积网络共享卷积层;4.2保持区域建议网络和快速卷积网络共享的卷积层固定,微调快速卷积神经网络的全连接层,得到实时卷积神经网络。进一步地,步骤4包括如下子步骤:4.3利用步骤4.2中微调后的快速卷积神经网络初始化步骤4.1中微调后的区域建议网络;4.4利用步骤4.3得到的区域建议网络重新提取候选区域,利用该候选区域重新训练步骤4.2中微调后的快速卷积神经网络,得到新的检测网络和新的检测网络输出的特征参数;4.5重复步骤4.1~4.4,直至实时卷积神经网络的预测值符合预期。进一步地,步骤1中的原始图像来源包括不同光照条件下和/或不同视角下的图片。为了实现上述目的,本专利技术还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种方法。为了实现上述目的,本专利技术还提供了一种实时检测施工现场图像中多类实体对象的设备,包括上述计算机可读存储介质以及处理器,处理器用于调用和处理计算机可读存储介质中存储的计算机程序。总体而言,本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:1、本专利技术通过使区域建议网络与快速卷积神经网络共享卷积层,使得区域建议神经网络能够将提取的候选区域共享给快速卷积神经网络,进而使快速卷积神经网络能够直接利用区域建议网络提取的候选区域进行后续的卷积运算,从而有效地提高快速卷积神经网络的性能;利用快速卷积神经网络和区域建议网络共享卷积层得到的实时卷积神经网络,能近乎实时的识别施工图像中的多类实体对象,为复杂环境下建设项目施工全过程进度、安全管理提供重要基础。2、本专利技术所构建的实时卷积神经网络实现端到端的自动检测图像中的施工对象,鉴于目前视频监控在施工现场的广泛使用,使得基于工程视频、图像的数据采集成本低,因此,本专利技术使用方便,利于推广应用。3、与现有技术相比,本专利技术提本文档来自技高网...
一种实时检测施工现场图像中多类实体对象的方法及设备

【技术保护点】
一种实时检测施工现场图像中多类实体对象的方法,其特征在于,包括如下步骤:步骤1:通过预先标记出实体对象的施工现场图像训练卷积神经网络,利用训练完成的卷积神经网络从施工现场的原始图像中提取特征图像;步骤2:使用区域建议网络从特征图像中提取候选区域;步骤3:将步骤2提取出的候选区域输入快速卷积神经网络进行训练,得到检测网络;在快速卷积神经网络中对候选区域的最后一个卷积层的特征图像进行池化处理,为每个候选区域生成固定长度的特征向量roi_pool5;将roi_pool5输入到快速卷积神经网络中的全连接层,以生成最终应用于多任务学习和计算多任务损失的特征,并使区域建议网络与快速卷积神经网络共享卷积层;步骤4:利用步骤3建立的检测网络将区域建议网络初始化,然后固定区域建议网络和快速卷积神经网络共享的卷积层,先微调区域建议网络独有的层,再微调快速卷积神经网络的全连接层,得到实时卷积神经网络;步骤5:利用步骤4得到的实时卷积神经网络,对待检测的施工现场图像进行检测,识别出其中的实体对象。

【技术特征摘要】
1.一种实时检测施工现场图像中多类实体对象的方法,其特征在于,包括如下步骤:步骤1:通过预先标记出实体对象的施工现场图像训练卷积神经网络,利用训练完成的卷积神经网络从施工现场的原始图像中提取特征图像;步骤2:使用区域建议网络从特征图像中提取候选区域;步骤3:将步骤2提取出的候选区域输入快速卷积神经网络进行训练,得到检测网络;在快速卷积神经网络中对候选区域的最后一个卷积层的特征图像进行池化处理,为每个候选区域生成固定长度的特征向量roi_pool5;将roi_pool5输入到快速卷积神经网络中的全连接层,以生成最终应用于多任务学习和计算多任务损失的特征,并使区域建议网络与快速卷积神经网络共享卷积层;步骤4:利用步骤3建立的检测网络将区域建议网络初始化,然后固定区域建议网络和快速卷积神经网络共享的卷积层,先微调区域建议网络独有的层,再微调快速卷积神经网络的全连接层,得到实时卷积神经网络;步骤5:利用步骤4得到的实时卷积神经网络,对待检测的施工现场图像进行检测,识别出其中的实体对象。2.根据权利要求1所述的一种实时检测施工现场图像中多类实体对象的方法,其特征在于,对于卷积神经网络中的卷积层,将上一层的输出作为下一层的输入,步骤1中,提取特征图像的方法如下:首先,向首层卷积层输入原始图像,由不同的卷积核向原始图像的x轴方向和y轴方向移动,进行卷积处理,得到初步特征图像;之后,用线性修正函数对初步特征图像进行修正,得到修正特征图像;然后,对修正特征图像进行池化操作、归一化处理,获得该卷积层的基本特征图像,作为下一卷积层的输入;对卷积神经网络中的所有卷积层重复上述过程,获取最终的特征图像。3.根据权利要求2所述的一种实时检测施工现场图像中多类实体对象的方法,其特征在于,步骤2中使用区域建议网络从特征图像中提取候选区域的方法如下:使用ImageNet预训练的模型将区域建议网络初始化,使用初始化后的区域建议网络在步骤1获得的特征图像上进行滑动窗口处理,每个滑动窗口被映射成d维向量,作为框分类层和框回归层的输入;当滑动窗口到达卷积特征矩阵的末尾时,框分类层输出对象/非对象的概率,框回归层则输出表示真实目标框架的变换参数,从而提取出候选区域。4.根据权利要求3所述的一种实时检测施工现场图像中多类实体对象的方法,其特征在于,步骤2包括如下子步骤:2.1使用ImageNet预训练的模型对区域建议网络进行初始化,并对初始化后的区域建议网络进行端到端微调;利用调整后的区域建议网络在步骤1获得的特征图像上进行滑动窗口处理,每个滑动窗口映射为一个d维特征向量;在区域建议网络中,原始图像的候选区域被称为锚框,滑动窗口在特征图象上滑动的每个位置都在原始图像...

【专利技术属性】
技术研发人员:骆汉宾丁烈云方伟立钟波涛刘佳静张永成
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1