图像的关联方法及装置、存储介质和电子装置制造方法及图纸

技术编号:23787731 阅读:23 留言:0更新日期:2020-04-15 00:51
本发明专利技术提供了一种图像的关联方法及装置、存储介质和电子装置,其中,该方法包括:将待处理的图像输入到目标神经网络中,并从目标神经网络的输出层得到输出结果;根据非极大抑制NMS对输出结果中的多个检测框进行过滤;从过滤后的多个检测框中根据各个检测框的重叠度IoU确定出具有关联关系的检测框。通过本发明专利技术,解决了相关技术中基于关键点检测和聚合实现目标关联方式因算法复杂并且耗时多,从而导致目标关联所需的时间长的问题。

Image association method and device, storage medium and electronic device

【技术实现步骤摘要】
图像的关联方法及装置、存储介质和电子装置
本专利技术涉及计算机领域,具体而言,涉及一种图像的关联方法及装置、存储介质和电子装置。
技术介绍
在计算机视觉领域中,目标关联就是将视觉算法感知到的不同目标进行关联分析。计算机视觉领域现有的目标关联方法常用的是基于参考人体姿态估计方法,比如卡内基梅隆的Open-pose,它的做法是首先在深度网络热力特征图上对人体各个关键点进行预测,然后根据网络训练的嵌入向量对关键点进行聚集,最后进一步估计出人体姿态。其他的一些方法,比如GoogleAI采用框的注意力机制来目标之间的关联,网络输入需要目标注意力模板的不断反馈。还有基于图理论来建立目标之间的关系,比如香港大学提出的方法,其首先需要CNN来提取特征并检测输出各个目标,之后将各个目标的特征信息送入图网络进行关联,最后输出关联的结果。但基于关键点检测和聚合的方法,比如Open-pose,在经过骨干网络后,又要进入6个阶段的子网络,每个子网络由2个分支构成,这样庞大的网络需要消耗很大的计算资源。在很多场景这样的计算资源消耗,往往会需要高性能的设备来满足实时性,而且该方法只能估计出人体和人脸的坐标点位置,不能生成目标的回归框。Open-pose的方法首先需要检测出人体关键点,之后在进行提纯的时候需要引入中间层的损失,这样做虽然保证了网络不会出现梯度消失或爆炸,但是却大大增加了网络训练的难度,降低了速度,较难达到实时性要求,同时在现实中人体关键点标签的获取往往比框标签的获取更困难。基于注意力机制的方法,在目标建立关系的时候需要不断用注意力框信息作为输入激励。这种方法虽然比基于关键点的方法快一些,但是相比大多数深度学习检测框架来说实现起来还是比较复杂的,同时耗时也会比大多数深度学习检测算法高。基于图理论的方法,在深度学习网络的输出后端增加了图网络,图网络需要根据检测目标的特征信息计算目标相关性。这种方法不仅复杂,而且大量的图网络计算将会非常耗时,无法满足实时性,并且图网络不容易训练。针对相关技术中的上述问题,目前尚未存在有效的解决方案。
技术实现思路
本专利技术实施例提供了一种图像的关联方法及装置、存储介质和电子装置,以至少解决相关技术中基于关键点检测和聚合实现目标关联方式因算法复杂并且耗时多,从而导致目标关联所需的时间长的问题。根据本专利技术的一个实施例,提供了一种图像的关联方法,包括:将待处理的图像输入到目标神经网络中,并从所述目标神经网络的输出层得到输出结果,其中,所述待处理的图像中包括多个目标图像,每一个目标图像中包括第一对象和第二对象,所述第一对象和所述第二对象具有关联关系;所述输出层中的通道数量由下述参数确定:将所述待处理图像划分为多个网格后所述网格的数量、组成各个网格的框的数量、所述框在所述待处理的图像中的位置信息、置信度、所述第一对象与所述第二对象的类别概率,根据所述第一对象预测的所述第二对象的位置信息;所述输出结果中包括多个与第一对象相关的检测框,以及与第二对象相关的检测框;根据非极大抑制NMS对所述输出结果中的多个检测框进行过滤;从过滤后的多个检测框中根据各个检测框的重叠度IoU确定出具有所述关联关系的检测框。根据本专利技术的另一个实施例,提供了一种图像的关联装置,包括:输入模块,用于将待处理的图像输入到目标神经网络中,并从所述目标神经网络的输出层得到输出结果,其中,所述待处理的图像中包括多个目标图像,每一个目标图像中包括第一对象和第二对象,所述第一对象和所述第二对象具有关联关系;所述输出层中的通道数量由下述参数确定:将所述待处理图像划分为多个网格后所述网格的数量、组成各个网格的框的数量,所述框在所述待处理的图像中的位置信息、置信度、所述第一对象与所述第二对象的类别概率、根据所述第一对象预测的所述第二对象的位置信息;所述输出结果中包括多个与第一对象相关的检测框、以及与第二对象相关的检测框;过滤模块,用于根据非极大抑制NMS对所述输出结果中的多个检测框进行过滤;关联模块,用于从过滤后的多个检测框中根据各个检测框的重叠度IoU确定出具有所述关联关系的检测框。根据本专利技术的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。通过本专利技术,由于仅仅是通过目标神经网络的输出层就能得到输出结果,减少了目标神经网络的计算过程,而且该输出层的通道数由下述参数确定:将待处理图像划分为多个网格后网格的数量,组成各个网格的框的数量,框在待处理的图像中的位置信息,置信度,第一对象与第二对象的类别概率,根据第一对象预测的第二对象的位置信息,相比较现有技术,确定通道数的参数多了根据第一对象预测的第二对象的位置信息,进而保证了在后续根据非极大抑制NMS对输出结果中的多个检测框进行过滤,以及从过滤后的多个检测框中根据各个检测框的重叠度IoU确定出具有关联关系的检测框过程中对第一对象与第二对象的关联的实现,也就是说,本申请的方法步骤在实现对图像关联的同时较少了目标神经网络的计算过程,提高了图像关联的效率,解决了相关技术中基于关键点检测和聚合实现目标关联方式因算法复杂并且耗时多,从而导致目标关联所需的时间长的问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的图像的关联方法的流程图;图2是根据本专利技术实施例的目标神经网络结构示意图;图3是根据本专利技术实施例的YOLO算法的示意图;图4是根据本专利技术实施例的基于Resnet基础网络的YOLOv3结构示意图;图5是根据本专利技术实施例的输出层通道的示意图;图6是根据本专利技术实施例的坐标位置计算的示意图;图7是根据本专利技术实施例的IOU计算示意图;图8是根据本专利技术实施例的NMS示意图;图9是根据本专利技术实施例的人体与人脸的关联示意图;图10是根据本专利技术实施例的图像的关联装置的结构框图。具体实施方式下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。实施例1在本实施例中提供了一种图像的关联方法,图1是根据本专利技术实施例的图像的关联方法的流程图,如图1所示,该流程包括如下步骤:步骤S102,将待处理的图像输入到目标神经网络中,并从目标神经网络的输出层得到输出结果,其中,待处理的图像中包括多个目标图像,每一个目标图像中包括第一对象和第二对象,第一对象和第二对本文档来自技高网
...

【技术保护点】
1.一种图像的关联方法,其特征在于,包括:/n将待处理的图像输入到目标神经网络中,并从所述目标神经网络的输出层得到输出结果,其中,所述待处理的图像中包括多个目标图像,每一个目标图像中包括第一对象和第二对象,所述第一对象和所述第二对象具有关联关系;所述输出层中的通道数量由下述参数确定:将所述待处理图像划分为多个网格后所述网格的数量、组成各个网格的框的数量、所述框在所述待处理的图像中的位置信息、置信度、所述第一对象与所述第二对象的类别概率、根据所述第一对象预测的所述第二对象的位置信息;所述输出结果中包括多个与所述第一对象相关的检测框,以及与所述第二对象相关的检测框;/n根据非极大抑制NMS对所述输出结果中的多个检测框进行过滤;/n从过滤后的多个检测框中,根据各个检测框的重叠度IoU确定出具有所述关联关系的检测框。/n

【技术特征摘要】
1.一种图像的关联方法,其特征在于,包括:
将待处理的图像输入到目标神经网络中,并从所述目标神经网络的输出层得到输出结果,其中,所述待处理的图像中包括多个目标图像,每一个目标图像中包括第一对象和第二对象,所述第一对象和所述第二对象具有关联关系;所述输出层中的通道数量由下述参数确定:将所述待处理图像划分为多个网格后所述网格的数量、组成各个网格的框的数量、所述框在所述待处理的图像中的位置信息、置信度、所述第一对象与所述第二对象的类别概率、根据所述第一对象预测的所述第二对象的位置信息;所述输出结果中包括多个与所述第一对象相关的检测框,以及与所述第二对象相关的检测框;
根据非极大抑制NMS对所述输出结果中的多个检测框进行过滤;
从过滤后的多个检测框中,根据各个检测框的重叠度IoU确定出具有所述关联关系的检测框。


2.根据权利要求1所述的方法,其特征在于,将待处理的图像输入到目标神经网络中,并从所述目标神经网络的输出层得到输出结果,包括:
将所述待处理图像输入所述目标神经网络中输出层;
根据所述输出层的通道对所述待处理图像进行处理,得到多个与所述第一对象相关的检测框与多个与所述第二对象相关的检测框;其中,与所述第二对象相关的检测框包括:检测到的与第二对象相关的检测框,根据多个与所述第一对象相关的检测框预测的与第二图像相关的检测框。


3.根据权利要求2所述的方法,其特征在于,从过滤后的多个检测框中根据各个检测框的重叠度IoU确定出具有所述关联关系的检测框,包括:
确定每一个检测到的与第二对象相关的检测框和根据多个与第一对象相关的检测框预测的与第二图像相关的检测框之间的IoU;
从中选择IoU最大的检测到的与第二对象相关的检测框和根据多个与第一对象相关的检测框预测的与第二图像相关的检测框具有所述关联关系。


4.根据权利要求1所述的方法,其特征在于,所述根据非极大抑制NMS对所述输出结果中的多个检测框进行过滤,包括:
S1,根据每一个检测框的置信度从所述输出结果中的多个检测框选择出置信度最高的第一检测框;
S2,确定所述第一检测框与所述输出结果中的其他检测框之间的多个IoU;
S3,从多个IoU中确定出大于预设阈值的IoU,并从确定出的IoU中过滤掉所述第一检测框外的另一个检测框;
S4,从剩余的检测框中根据置信度排序重复执行上述步骤S1至步骤S3,直到置信度最低检测框。


5.根据权利要求1至4中任一项所述的方法,其特征在于,所述目标神经网络中的损失函数为总方差损失函数与交叉熵损失函数的组合。


6.根据权利要求1至4中任一项所述的方法,其特征在于,所述输出层的数量为3,且该3个输出层的尺度相互之间均不一致。

【专利技术属性】
技术研发人员:于晋川
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1