目标框预测方法、装置、设备及介质制造方法及图纸

技术编号:27977246 阅读:28 留言:0更新日期:2021-04-06 14:11
本发明专利技术实施例提供了一种目标框预测方法、装置、设备及介质,所述方法包括:对图像中预设类别的多个目标进行检测,得到多个候选预测框;确定所述多个候选预测框分别与所述预设类别对应的各个标注框之间的重合度;从所述各个候选预测框中,确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框;根据所述多个匹配预测框与所述多个标注框之间的匹配关系,确定所述预设类别的多个目标在所述图像中匹配的目标预测框。

【技术实现步骤摘要】
目标框预测方法、装置、设备及介质
本专利技术涉及图像处理
,特别是涉及一种目标框预测方法、装置、设备及介质。
技术介绍
目前,基于深度学习的物体检测方法会利用卷积神经网络提取图像的深度特征,在用这些深度特征预测图像中各个目标所属类别的概率以及对应目标框的位置。在通过卷积神经网络进行目标框的预测时,其预测结果一般是与图像的标注框进行比较,从而根据比较结果区分出预测的准确度,例如,目标框的预测结果和标注框之间的交并比大于某个阈值,则认为预测结果是准确的,小于某个阈值则认为预测结果是错误的,从而可以评估卷积神经网络的性能。因此,如何确定预测结果与标注框之间的对应关系,对卷积神经网络模型的的图像识别准确度有较大的影响。实际中,卷积神经网络是同时对数量众多的目标框进行预测,一般,预测框的数目远大于标注框的数量。此种情况下,经常导致目标框的预测结果和标注框之间进行了不合理的对应,造成预测结果的正确与否的判定不够合理和准确,导致卷积神经网络模型的图像识别准确度较低,即预测结果的置信度较低。
技术实现思路
鉴于上述问题,提出了本专利技术实施例的一种目标框预测方法、装置、设备及介质,以便克服上述问题或者至少部分地解决上述问题。为了解决上述问题,本专利技术的第一方面,公开了一种目标框预测方法,所述方法包括:对图像中预设类别的多个目标进行检测,得到多个候选预测框;确定所述多个候选预测框分别与所述预设类别对应的各个标注框之间的重合度;从所述各个标注框中,确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框;根据所述多个匹配预测框与所述多个标注框之间的匹配关系,确定所述预设类别的多个目标在所述图像中匹配的目标预测框。可选地,从所述各个标注框中,确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框,包括:基于所述多个候选预测框以及所述各个标注框,构建第一EMD模型,其中,以每个候选预测框为一个节点,每个标注框为一个节点,构建每个候选预测框所在的节点到每个标注框所在的节点之间的边,所述第一EMD模型包括的各个边的流表征所连接的两个节点所表征的两个框之间匹配的概率,所述第一EMD模型包括的各个边的代价表征所连接的两个节点所表征的两个框之间的重合度;对所述第一EMD模型求解,确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框。可选地,对所述第一EMD模型求解,确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框,包括:求解以下线性规划方程,以确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框:其中,fij≥0i=1,2,...,m,j=1,2,...,n;其中,所述线性规划方程的约束条件为:其中:si=pii=1,2,...,mdj=1j=1,2,...,ncij=1-GIoU(b1i,b2j)i=1,2,...,m,j=1,2,...,n其中,m表示所述多个候选预测框的总数,n表示所述各个标注框的总数,fij和cij分别表示第i各个候选预测框所在的节点与第j个标注框所在的节点之间的边的流和代价,pi表示第i个候选预测框所框选的目标的类别预测概率中所述预设类别的预测概率,b1i表示第i个候选预测框所框选的区域,b2j表示第j个标注框所框选的区域。可选地,在基于所述多个候选预测框以及所述各个标注框,构建第一EMD模型之后,所述方法还包括:增加满足的第一虚拟节点和第二虚拟节点,构建所述第一虚拟节点到每个标注框所在的节点之间的第一虚拟边,并构建每个候选预测框所在的节点到所述第二虚拟节点之间的第二虚拟边,所述第一EMD模型包括的各个第一虚拟边的流表征所连接的节点所表征的标注框所框选的目标被漏识别的概率,所述第一EMD模型包括的各个第二虚拟边的流表征所连接的节点所表征的候选预测框是难例负样本的概率;确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框,包括:求解以下线性规划方程,以确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框:其中,fij≥oi=1,2,...,m,m+1,j=1,2,...,n,n+1其中,约束条件为:其中,si=pii=1,2,...,mdj=1j=1,2,...,n当时,sm+1=0当时,dn+1=0cij=1-GloU(b1i,b2j)i=1,2,...,m,j=1,2,...,ncm+1,j=0,j=1,2,...,ncm+1,n+1=∞其中,m表示所述多个候选预测框的总数,n表示所述各个标注框的总数,fij和cij分别表示第i各个候选预测框所在的节点与第j个标注框所在的节点之间的边的流和代价,pi表示第i个候选预测框所框选的目标的类别预测概率中所述预设类别的预测概率,b1i表示第i个候选预测框所框选的区域,b2j表示第j个标注框所框选的区域。可选地,所述方法还包括:获得原始物体检测网络,所述原始物体检测网络包括特征提取模块和与所述特征提取模块串联的预测模块;在所述原始物体检测网络中增加与所述预测模块串联的EMD模块,得到待训练网络;利用样本图像对所述待训练网络进行训练,得到目标图像处理网络,所述样本图像具有多个样本目标的样本类别标签和样本标注框;其中,所述预测模块用于预测所述样本图像中多个样本目标的样本类别预测概率和样本候选预测框,所述EMD模块用于输出一种预测类别的样本目标的样本标注框所匹配的样本匹配预测框,所述目标图像处理网络的损失函数是根据预测类别是预设样本类别的多个样本目标的样本标注框和与其匹配的样本匹配预测框构建的。可选地,所述目标图像处理网络的损失函数为第一损失函数L1或总损失函数L:其中,L=L1+αL2+βL3其中,K=argImincIJ;其中,M和N分别表示所述预设样本类别对应的样本候选预测框的总数和样本标注框的总数,FIJ表示第I个样本候选预测框与第J个样本标注框之间匹配的概率,CIJ表示第I个样本候选预测框与第J个样本标注框之间的重合度,PI表示第I个样本候选预测框所框选的样本目标的样本类别预测概率中所述预设样本类别的预测概率,fI,N+1表示第I个样本候选预测框是难例负样本的概率,fM+1,J表示第J个样本标注框所框选的样本目标被漏识别的概率。可选地,在利用样本图像对所述待训练网络进行训练,得到目标图像处理网络之后,所述方法还包括:丢弃所述目标图像处理网络中的所述EMD模块,得到物体检测网络;将待识别图像输入所述物体检测网络,得到所述待识别图像中的物体的类别和位置。本专利技术实施例的第二方面,公开了一种目标框预测装置,包括:检测模块,用于对图像中预设类别的多个目标进行检测,得到多个候选预测框;第一确定模块,本文档来自技高网...

【技术保护点】
1.一种目标框预测方法,其特征在于,包括:/n对图像中预设类别的多个目标进行检测,得到多个候选预测框;/n确定所述多个候选预测框分别与所述预设类别对应的各个标注框之间的重合度;/n从所述各个候选预测框中,确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框;/n根据所述多个匹配预测框与所述多个标注框之间的匹配关系,确定所述预设类别的多个目标在所述图像中匹配的目标预测框。/n

【技术特征摘要】
1.一种目标框预测方法,其特征在于,包括:
对图像中预设类别的多个目标进行检测,得到多个候选预测框;
确定所述多个候选预测框分别与所述预设类别对应的各个标注框之间的重合度;
从所述各个候选预测框中,确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框;
根据所述多个匹配预测框与所述多个标注框之间的匹配关系,确定所述预设类别的多个目标在所述图像中匹配的目标预测框。


2.根据权利要求1所述的方法,其特征在于,从所述各个候选预测框中,确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框,包括:
基于所述多个候选预测框以及所述各个标注框,构建第一EMD模型,其中,以每个候选预测框为一个节点,每个标注框为一个节点,构建每个候选预测框所在的节点到每个标注框所在的节点之间的边,所述第一EMD模型包括的各个边的流表征所连接的两个节点所表征的两个框之间匹配的概率,所述第一EMD模型包括的各个边的代价表征所连接的两个节点所表征的两个框之间的重合度;
对所述第一EMD模型求解,确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框。


3.根据权利要求2所述的方法,其特征在于,对所述第一EMD模型求解,确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框,包括:
求解以下线性规划方程,以确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框:



其中,fij≥0i=1,2,...,m,j=1,2,...,n;
其中,所述线性规划方程的约束条件为:









其中:si=pii=1,2,...,m
dj=1j=1,2,...,n
cij=1-GIoU(b1i,b2j)i=1,2,...,m,j=1,2,...,n
其中,m表示所述多个候选预测框的总数,n表示所述各个标注框的总数,fij和cij分别表示第i各个候选预测框所在的节点与第j个标注框所在的节点之间的边的流和代价,pi表示第i个候选预测框所框选的目标的类别预测概率中所述预设类别的预测概率,bi表示第i个候选预测框所框选的区域,b2j表示第j个标注框所框选的区域。


4.根据权利要求2所述的方法,其特征在于,在基于所述多个候选预测框以及所述各个标注框,构建第一EMD模型之后,所述方法还包括:
增加满足的第一虚拟节点和第二虚拟节点,构建所述第一虚拟节点到每个标注框所在的节点之间的第一虚拟边,并构建每个候选预测框所在的节点到所述第二虚拟节点之间的第二虚拟边,所述第一EMD模型包括的各个第一虚拟边的流表征所连接的节点所表征的标注框所框选的目标被漏识别的概率,所述第一EMD模型包括的各个第二虚拟边的流表征所连接的节点所表征的候选预测框是难例负样本的概率;
确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框,包括:
求解以下线性规划方程,以确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框:



其中,fij≥oi=1,2,...,m,m+1,j=1,2,...,n,n+1
其中,约束条件为:



其中,si=pii=1,2,...,m
dj=1j=1,2,...,n
当时,sm+1=0
当时,dn+1=0
cij=1-GloU(b1i,b2...

【专利技术属性】
技术研发人员:王英明杨同
申请(专利权)人:北京迈格威科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1