一种多类别建材视频计数方法及系统、计数设备技术方案

技术编号:35189051 阅读:13 留言:0更新日期:2022-10-12 18:04
本发明专利技术提供了一种多类别建材视频计数方法及系统、计数设备,所述计数方法包括:提取机器人拍摄视频的视频帧;将待测视频帧输入到YOLOv4模型中,提取出待测图像的特征;对主干特征提取网络的最后一个特征层进行三次卷积后,利用多尺度的最大池化处理,以分离待测图像中的上下文特征;对获取的特征进行多尺度预测,经解码获取预测框在待测输入图像中的位置;将所有框信息输入到NMS模块中,以得到筛选后的框信息;将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中,输出帧间目标id。本发明专利技术采用神经网络方法并使用一个多类别多目标跟踪,关联视频的帧间信息,克服目标遮挡,最后通过双过线计数算法计算出整个视频中的建材数量和种类。中的建材数量和种类。中的建材数量和种类。

【技术实现步骤摘要】
一种多类别建材视频计数方法及系统、计数设备


[0001]本专利技术涉及计算机视觉
,尤其涉及一种多类别建材视频计数方法及系统、计数设备。

技术介绍

[0002]随着“数字化工地”理念的提出,机器人智能监控技术在建筑行业得到广泛应用,逐步实现了建筑工地建材巡检,建材数量检测,实时反馈建材的需求,以减少工地事故的发生,提高建筑行业的实施效率。
[0003]目前,在建材企业将建材通过运输车辆运送到工地上之后,一般需要供货方、劳务队材料员、项目部材料员三方工地人员对建材数量进行清点以完成货物验收。而工地普遍采用人工计数方法,例如一般使用不同颜色的颜料或者电子自动计数笔对将要清点的建材进行区分标记。
[0004]采用人工计数方法虽然简单,但工作强度大,清点过程繁琐枯燥,工作人员会长时间处于高度紧张的状态,容易导致计数误差;此外,整个过程常常需要进行反复校对,工人数完建材一般需要花费数小时左右,计数效率非常低,这已经无法满足现代化建筑企业快速生产的需求。

技术实现思路

[0005]为了克服上述现有技术的不足,本专利技术提供了一种多类别建材视频计数方法及系统,以解决目前工地人工计数方法导致工作强度大、清点过程繁琐、易计数产生误差和工作效率低的技术问题。
[0006]为解决上述问题,本专利技术的第一目的在于提供一种多类别建材视频计数方法,应用于工地建材数量的估计,所述视频计数方法包括:
[0007]S
100
:提取机器人拍摄视频的视频帧;
[0008]S
200
:将所述拍摄视频中的待测视频帧输入到YOLOv4模型中,经主干特征提取网络CSPDarknet53提取出所述待测图像的特征;
[0009]S
300
:对所述主干特征提取网络CSPdarknet53的最后一个特征层进行三次卷积后,分别利用多个不同尺度的最大池化方法进行处理,以分离出所述待测图像中最显著的上下文特征;
[0010]S
400
:提取完特征后,采用YOLOv3Head对获取的特征进行多尺度预测,得到3个有效特征层的预测结果,所述3个有效特征层经解码获取预测框在待测输入图像中的位置;
[0011]S
500
:将预测头输出的所有框信息输入到NMS模块中,以得到筛选后的框信息;
[0012]S
600
:将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中,所述sort模块输出帧间目标id;
[0013]S
700
:通过双过线算法计算出视频中的建材目标数,并打印在输出视频中。
[0014]可选的,在步骤S
200
中,所述提取出所述待测图像的特征具体操作为:
[0015]提取待测图像中的3个有效特征层(76,76,256)、(38,38,512)和(19,19,1024),所述3个有效特征层分别位于主干特征提取网络CSPDarknet53的不同位置,以用于分别检测小、中和大的待测目标。
[0016]可选的,在步骤S
300
中,将所述主干特征提取网络CSPDarknet53中的最后一个输出特征层进行三次DarknetConv2D_BN_Leaky卷积后,分别利用四个不同尺度(13,13)、(9,9)、(5,5)和(1,1)的最大池化核进行处理,以改善感受野域尺寸大小,并分离出最显著的上下文特征。
[0017]可选的,在步骤S
400
中,所述采用YOLOv3Head对获取的特征进行多尺度预测的具体操作包括:
[0018]采用YOLOv3Head对获取的特征进行多尺度预测,得到3个有效特征层的预测结果,从而输出编码后的3个张量值为(19,19,33)、(38,38,33)和(76,76,33),并且可以确定三个预测框的位置。
[0019]得到(19*19+38*38+76*76)*3个box的坐标,其坐标结构为[x,y,w,h,confidence,class1,class2,

,classN][0020]其中:x、y代表每一先验框的左上角坐标,w、h分别代表先验框的宽度和高度,confidence代表网络认定先验框属于classN的置信度,classN表示N个类别。
[0021]可选的,在步骤S
500
中,所述将预测头输出的所有框信息输入到NMS模块中,以得到筛选后的框信息具体包括:
[0022]从yolov4网络中得到的若干框后,将该包含框信息的数组输入NMS模块中,进行非极大值抑制,输出最后的检测结果。
[0023]可选的,在步骤S
600
中,所述将目标检测器输出帧序列中前后帧的框坐标序列输入sort模块中,所述sort模块输出帧间目标id的具体操作为:
[0024]将经过NMS模块筛选过后的框矩阵输入到sort跟踪模块,所述sort跟踪模块给当前帧中的所有目标分配一个id,以用于确定两帧中的目标是否为同一个目标。
[0025]可选的,在步骤S
700
中,所述通过双过线算法计算出视频中的建材目标数具体包括:
[0026]S
701
:通过分配的id来锁定前后帧是否为同一个目标;
[0027]S
702
:将每个目标的当前帧的框中心坐标与上一帧的中心坐标相连形成向量;
[0028]S
703
:判断每帧的向量方向,以确定双过线的计数线是哪一根,若该向量与计数线相交,则目标数加一。
[0029]可选的,所述YOLOv3Head网络的损失函数包括坐标损失coordError,置信度损失IOUError和类别预测损失classError,所述YOLOv3Head网络的损失函数表达式如下:
[0030][0031]其中:表示第i个单元格包含目标,表示第i个单元格的第j个边界框包含目标,表示第i个单元格的第j个边界框不包含目标,λ
coord
表示框回归损失的权重值,λ
noobj
表示没有目标的类别所占的权重值,表示预测目标是第i类的置信度,C
i
代表第i类的真实置信度,代表预测为第i类的概率,p
i
(c)代表第i类的真实概率,x,y,w,h分别代表预测框的中心x,y坐标和框的宽和高。
[0032]本专利技术的第二目的在于提供一种多类别建材视频计数设备,包括:处理器、显示器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述处理器执行所述计算机程序指令时用于上述所述的多类别建材视频计数方法。
[0033]本专利技术的第三目的在于提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述所述的多类别建材视频计数方法。
[0034]本专利技术与现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多类别建材视频计数方法,应用于工地建材数量的估计,其特征在于,所述视频计数方法包括:S
100
:提取机器人拍摄视频的视频帧;S
200
:将所述拍摄视频中的待测视频帧输入到YOLOv4模型中,经主干特征提取网络CSPDarknet53提取出所述待测图像的特征;S
300
:对所述主干特征提取网络CSPdarknet53的最后一个特征层进行三次卷积后,分别利用多个不同尺度的最大池化方法进行处理,以分离出所述待测图像中最显著的上下文特征;S
400
:提取完特征后,采用YOLOv3Head对获取的特征进行多尺度预测,得到3个有效特征层的预测结果,所述3个有效特征层经解码获取预测框在待测输入图像中的位置;S
500
:将预测头输出的所有框信息输入到NMS模块中,以得到筛选后的框信息;S
600
:将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中,所述sort模块输出帧间目标id;S
700
:通过双过线算法计算出视频中的建材目标数,并打印在输出视频中。2.根据权利要求1所述的多类别建材视频计数方法,其特征在于,在步骤S
200
中,所述提取出所述待测图像的特征具体操作为:提取待测图像中的3个有效特征层(76,76,256)、(38,38,512)和(19,19,1024),所述3个有效特征层分别位于主干特征提取网络CSPDarknet53的不同位置,以用于分别检测小、中和大的待测目标。3.根据权利要求1所述的多类别建材视频计数方法,其特征在于,在步骤S
300
中,将所述主干特征提取网络CSPDarknet53中的最后一个输出特征层进行三次DarknetConv2D_BN_Leaky卷积后,分别利用四个不同尺度(13,13)、(9,9)、(5,5)和(1,1)的最大池化核进行处理,以改善感受野域尺寸大小,并分离出最显著的上下文特征。4.根据权利要求1所述的多类别建材视频计数方法,其特征在于,在步骤S
400
中,所述采用YOLOv3Head对获取的特征进行多尺度预测的具体操作包括:采用YOLOv3Head对获取的特征进行多尺度预测,得到3个有效特征层的预测结果,从而输出编码后的3个张量值为(19,19,33)、(38,38,33)和(76,76,33),并且可以确定三个预测框的位置;得到(19*19+38*38+76*76)*3个box的坐标,其坐标结构为[x,y,w,h,confidence,class1,class2,

,class N];其中:x、y代表每一先验框的左上角坐标,...

【专利技术属性】
技术研发人员:殷蔚明彭建铖罗大鹏程卓陈应黄罗琪董蓓柳旭辉
申请(专利权)人:中建三局智能技术有限公司中建三局第二建设工程有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1