多模态目标识别方法和系统技术方案

技术编号:27132541 阅读:16 留言:0更新日期:2021-01-25 20:17
本公开提供了一种多模态目标识别方法,包括:在多对象场景中对每个对象进行多模态跟踪,以获取每个对象在各个模态下的模态信息;关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集;在所述多对象场景中选择目标;基于所选目标确定所述目标的模态信息集;在所述目标的模态信息集中选择可用的模态信息;以及基于所述可用的模态信息识别所述目标。标。标。

【技术实现步骤摘要】
多模态目标识别方法和系统


[0001]本公开主要涉及目标识别,尤其涉及多模态下的目标识别。

技术介绍

[0002]线下刷脸支付的摄像头,为了极高的安全性,基本上都采用2D+3D或者2D+IR+3D的多模态摄像头。常规的方案一般选择在2D上做检测,基于2D脸的大小进行选脸,或者结合人脸检测框对应的平均深度值计算人脸检测框在空间的位置进行选脸。
[0003]但是各个模态对各自环境的适应能力不同,只依赖2D摄像头进行主要的检测和选脸逻辑,使得在极端光线等情况下3D或者IR模态能够检测到人脸,但是2D模态检测失败,也不能继续进行人脸识别的全链路,对全链路通过率造成了很大的伤害。
[0004]在其它场景中,例如危险人物追踪或儿童失踪、高价值货物丢失等的场景,同样需要在关键地点实现不受光线或遮挡影响的目标识别。
[0005]因此,本领域需要在极端光线条件下或者目标受到遮挡的情况下,仍然能够进行目标识别的方法和系统。

技术实现思路

[0006]为解决上述技术问题,本公开提供了一种在极端光线条件下或者目标受到遮挡的情况下,仍然能够进行目标识别的方案。
[0007]在本公开一实施例中,提供了一种多模态目标识别方法,包括:在多对象场景中对每个对象进行多模态跟踪,以获取每个对象在各个模态下的模态信息;关联对象在各个模态下的模态信息以形成对象的模态信息集;在多对象场景中选择目标;基于所选目标确定目标的模态信息集;在目标的模态信息集中选择可用的模态信息;以及基于可用的模态信息识别目标。
[0008]在本公开另一实施例中,模态信息包括:RGB图像、IR图像、3D图像、视频帧、声音、姿态、指纹、脉搏波。
[0009]在本公开又一实施例中,关联对象在各个模态下的模态信息以形成对象的模态信息集进一步包括:在模态信息是图像的情况下,采用图像哈希技术进行关联映射。
[0010]在本公开另一实施例中,关联对象在各个模态下的模态信息以形成对象的模态信息集进一步包括:在多对象场景是密集场景的情况下,采用区域交并比(IOU)和非极大值抑制(NMS)进行关联映射。
[0011]在本公开又一实施例中,在多对象场景中选择目标包括基于空间位置来选择目标。
[0012]在本公开另一实施例中,在多对象场景中选择目标包括基于场景选择目标。
[0013]在本公开又一实施例中,在目标的模态信息集中选择可用的模态信息包括选择具备区分度的模态信息。
[0014]在本公开另一实施例中,在目标的模态信息集中选择可用的模态信息包括根据不
同的场景选择不同的模态信息。
[0015]在本公开一实施例中,提供了一种多模态目标识别系统,包括:模态信息收集模块,用于:在多对象场景中对每个对象进行多模态跟踪,以获取每个对象在各个模态下的模态信息;关联对象在各个模态下的模态信息以形成对象的模态信息集;目标选择模块,用于:在多对象场景中选择目标;基于所选目标确定目标的模态信息集;以及目标识别模块,用于:在目标的模态信息集中选择可用的模态信息;基于可用的模态信息识别目标。
[0016]在本公开另一实施例中,模态信息包括:RGB图像、IR图像、3D图像、视频帧、声音、姿态、指纹、脉搏波。
[0017]在本公开又一实施例中,模态信息收集模块关联对象在各个模态下的模态信息以形成对象的模态信息集进一步包括:在模态信息是图像的情况下,模态信息收集模块采用图像哈希技术进行关联映射。
[0018]在本公开另一实施例中,模态信息收集模块关联对象在各个模态下的模态信息以形成对象的模态信息集进一步包括:在多对象场景是密集场景的情况下,模态信息收集模块采用区域交并比(IOU)和非极大值抑制(NMS)进行关联映射。
[0019]在本公开又一实施例中,目标选择模块在多对象场景中选择目标包括目标选择模块基于空间位置来选择目标。
[0020]在本公开另一实施例中,目标选择模块在多对象场景中选择目标包括目标选择模块基于场景来选择目标。
[0021]在本公开又一实施例中,目标识别模块在目标的模态信息集中选择可用的模态信息包括目标识别模块选择具备区分度的模态信息。
[0022]在本公开另一实施例中,目标识别模块在目标的模态信息集中选择可用的模态信息包括目标识别模块根据不同的场景选择不同的模态信息。
[0023]在本公开一实施例中,提供了一种存储有指令的计算机可读存储介质,当这些指令被执行时使得机器执行如前所述的方法。
[0024]提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
附图说明
[0025]本公开的以上
技术实现思路
以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是,附图仅作为所请求保护的专利技术的示例。在附图中,相同的附图标记代表相同或类似的元素。
[0026]图1是示出多模态摄像头应用于线下刷脸支付场景的示图;
[0027]图2是示出根据本公开一实施例的多模态目标识别方法的流程图;
[0028]图3是示出根据本公开一实施例的多模态目标识别框架的实现的示图;
[0029]图4是示出根据本公开一实施例的采用包括RGB二维模态和IR模态的双目摄像机的多模态目标识别方法的流程图;
[0030]图5是示出根据本公开一实施例的多模态目标识别系统的框图。
具体实施方式
[0031]为使得本公开的上述目的、特征和优点能更加明显易懂,以下结合附图对本公开的具体实施方式作详细说明。
[0032]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但是本公开还可以采用其它不同于在此描述的其它方式来实施,因此本公开不受下文公开的具体实施例的限制。
[0033]本文中的模态指的是信息的来源或者形式。举例而言,人有触觉、听觉、视觉、嗅觉;而信息的媒介有语音、视频、文字等;还有多种多样的传感器,比如雷达、红外、加速度计等。以上种种都称为模态。同时模态也可有更宽泛的定义,例如,将两种不同的语言当作两种模态,甚至在两种不同情况下采集到的数据集也可认为是两种模态。
[0034]多模态相机(包括摄像机)可融合单目摄像头、3D摄像头(例如,3D结构光、TOF飞行时间、双目立体视觉识别)、RGB摄像头和红外摄像头等各种摄像头,采集的是2D+3D或者2D+IR+3D等的多模态信息。采用多模态相机进行物体识别、行为识别、场景建模的相关应用越来越多。
[0035]普通的彩色相机拍摄到的图片能看到相机视角内的所有物体并记录下来,但是其所记录的数据不包含这些物体到相机的距离。仅仅能通过图像的语义分析可判断哪些物体比较远、哪些比较近,但是并没有确切的数据。而多模态相机则解决了该问题,通过深度相机获取到的数据,能准确知道图像中每个点离摄像头的距离,再加上该点在2D图像中的(x,y)坐标,就能获取图像中每个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态目标识别方法,包括:在多对象场景中对每个对象进行多模态跟踪,以获取所述对象在各个模态下的模态信息;关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集;在所述多对象场景中选择目标;基于所选目标确定所述目标的模态信息集;在所述目标的模态信息集中选择可用的模态信息;以及基于所述可用的模态信息识别所述目标。2.如权利要求1所述的方法,所述模态信息包括:RGB图像、IR图像、3D图像、视频帧、声音、姿态、指纹、脉搏波。3.如权利要求1所述的方法,关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集进一步包括:在所述模态信息是图像的情况下,采用图像哈希技术进行关联映射。4.如权利要求1所述的方法,关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集进一步包括:在所述多对象场景是密集场景的情况下,采用区域交并比(IOU)和非极大值抑制(NMS)进行关联映射。5.如权利要求1所述的方法,在所述多对象场景中选择目标包括基于空间位置来选择所述目标。6.如权利要求1所述的方法,在所述多对象场景中选择目标包括基于场景选择所述目标。7.如权利要求1所述的方法,在所述目标的模态信息集中选择可用的模态信息包括选择具备区分度的模态信息。8.如权利要求1所述的方法,在所述目标的模态信息集中选择可用的模态信息包括根据不同的场景选择不同的模态信息。9.一种多模态目标识别系统,包括:模态信息收集模块,用于:在多对象场景中对每个对象进行多模态跟踪,以获取每个对象在各个模态下的模态信息;关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集;目标选择模块,...

【专利技术属性】
技术研发人员:郑丹丹
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1