基于多模态的图像检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30786170 阅读:13 留言:0更新日期:2021-11-16 07:48
本公开提出了基于多模态的图像检测方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习等技术领域,可应用于人脸识别场景下。具体实现方案:获取参考帧图像和待处理帧图像,参考帧图像和待处理帧图像的模态不相同,并从参考帧图像之中识别出参考检测框,以及将参考检测框映射至待处理帧图像之中,以得到目标检测框,目标检测框被用于进行图像检测,能够实现对不同模态图像中的检测框进行准确地映射,当采用映射得到的目标检测框进行图像检测时,能够有效提升复杂场景下图像检测准确率与召回率,提高图像识别系统的有效性。别系统的有效性。别系统的有效性。

【技术实现步骤摘要】
基于多模态的图像检测方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及计算机视觉和深度学习等
,可应用于人脸识别场景下,具体涉及基于多模态的图像检测方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]人脸识别是计算机视觉技术和图像处理技术的重要组成部分,广泛应用于交通、金融等领域。而图像检测是人脸识别过程中的一个关键环节,相关技术中,主要基于可见光摄像头与近红外摄像头采集的视频帧进行图像检测。

技术实现思路

[0004]提供了一种基于多模态的图像检测方法、装置、电子设备、存储介质及计算机程序产品。
[0005]根据第一方面,提供了一种基于多模态的图像检测方法,包括:获取参考帧图像和待处理帧图像,参考帧图像和待处理帧图像的模态不相同;从参考帧图像之中识别出参考检测框;以及将参考检测框映射至待处理帧图像之中,以得到目标检测框,目标检测框被用于进行图像检测。
[0006]根据第二方面,提供了一种基于多模态的图像检测装置,包括:第一获取模块,用于获取参考帧图像和待处理帧图像,参考帧图像和待处理帧图像的模态不相同;识别模块,用于从参考帧图像之中识别出参考检测框;以及映射模块,用于将参考检测框映射至待处理帧图像之中,以得到目标检测框,目标检测框被用于进行图像检测。
[0007]根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例提出的基于多模态的图像检测方法。
[0008]根据第四方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例提出的基于多模态的图像检测方法。
[0009]根据第五方面,提出了一种计算机程序产品,包括计算机程序,当所述计算机程序由处理器执行时实现本公开实施例提出的基于多模态的图像检测方法。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开第一实施例的示意图;
[0013]图2是根据本公开实施例提供的卷积神经网络的结构示意图;
[0014]图3是根据本公开第二实施例的示意图;
[0015]图4是根据本公开第三实施例的示意图;
[0016]图5是根据本公开实施例提供的图像检测系统的结构示意图;
[0017]图6是根据本公开实施例提供的图像检测流程示意图;
[0018]图7是根据本公开第四实施例的示意图;
[0019]图8是根据本公开第五实施例的示意图;
[0020]图9是用来实现本公开实施例的基于多模态的图像检测方法的电子设备的框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]图1是根据本公开第一实施例的示意图。
[0023]其中,需要说明的是,本实施例的基于多模态的图像检测方法的执行主体为基于多模态的图像检测装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
[0024]本公开实施例涉及人工智能
,具体涉及计算机视觉和深度学习等
,可应用于人脸识别场景下,能够实现对不同模态图像中的检测框进行准确地映射,当采用映射得到的目标检测框进行图像检测时,能够有效提升复杂场景下图像检测准确率与召回率,提高图像识别系统的有效性。
[0025]其中,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
[0026]深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
[0027]计算机视觉,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送至仪器检测的图像。
[0028]而人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别,该人脸识别过程是经过了人脸对应的用户的授权,是通过各种公开、合法合规的方式所进行的人脸识别,其人脸识别过程符合相关法律法规。
[0029]如图1所示,该基于多模态的图像检测方法包括:
[0030]S101:获取参考帧图像和待处理帧图像,参考帧图像和待处理帧图像的模态不相
同。
[0031]本公开实施例中,首先获取参考帧图像和待处理帧图像。
[0032]其中,当前进行处理的图像可以被称为待处理帧图像,该待处理帧图像可以是针对任意目标对象进行图像采集而得到的图像,并且可以是采集的视频流中的一帧或者多帧图像,或者还可以是单独的图像,对此不做限制。
[0033]而对检测待处理帧图像起到参考作用的图像,可以被称为参考帧图像,参考帧图像例如与待处理帧图像中的目标对象相同,或者还可以与待处理帧图像具有相关联的信息,可以辅助检测待处理帧图像中的目标对象,对此不作限制。
[0034]并且,该参考帧图像的模态和待处理帧图像的模态不相同,例如:参考帧图像的模态可以是近红外(Near Infrared Radiation,NIR)模态,而待处理帧图像的模态可以是三原色(Red Green Blue,RGB)模态;或者,参考帧图像可以是RGB模态,而待处理帧图像可以是NIR模态;又或者,参考帧图像和待处理帧图像还可以是其它任意可能的不同模态,对此不作限制。
[0035]一些实施例,参考本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的图像检测方法,包括:获取参考帧图像和待处理帧图像,所述参考帧图像和所述待处理帧图像的模态不相同;从所述参考帧图像之中识别出参考检测框;以及将所述参考检测框映射至所述待处理帧图像之中,以得到目标检测框,所述目标检测框被用于进行图像检测。2.根据权利要求1所述的方法,所述参考帧图像由参考摄像头捕获,所述待处理帧图像由目标摄像头捕获,其中,所述将所述参考检测框映射至所述待处理帧图像之中,以得到目标检测框,包括:获取所述参考摄像头的参考摄像参数,并获取所述目标摄像头的目标摄像参数;确定所述参考摄像参数和所述目标摄像参数之间的参数映射关系;以及根据所述参数映射关系,将所述参考检测框映射至所述待处理帧图像之中,以得到所述目标检测框。3.根据权利要求2所述的方法,其中,所述确定所述参考摄像参数和所述目标摄像参数之间的参数映射关系,包括:获取所述参考摄像头的参考深度信息,并获取所述目标摄像头的目标深度信息;根据所述参考摄像参数、所述参考深度信息结合世界坐标系,确定所述参考帧图像中的参考像素坐标;根据所述目标摄像参数、所述目标深度信息结合所述世界坐标系,确定所述待处理帧图像中的目标像素坐标;以及确定所述参考像素坐标和所述目标像素坐标之间的映射关系并作为所述参数映射关系。4.根据权利要求3所述的方法,其中,所述根据所述参数映射关系,将所述参考检测框映射至所述待处理帧图像之中,以得到所述目标检测框,包括:确定所述参考检测框对应的第一像素坐标,所述第一像素坐标,是所述参考检测框所包含的参考像素点的坐标;根据所述第一像素坐标结合所述参数映射关系确定第二像素坐标,所述第二像素坐标,是所述待处理帧图像中的目标像素点的坐标;以及将所述待处理帧图像中包含所述目标像素点的坐标的检测框作为所述目标检测框。5.根据权利要求2所述的方法,在所述将所述参考检测框映射至所述待处理帧图像之中,以得到目标检测框之后,还包括:获取所述目标检测框的检测框坐标;根据所述检测框坐标生成目标摄像参数;控制所述目标摄像头基于所述目标摄像参数,捕获所述待处理帧图像的下一帧图像。6.根据权利要求1

5任一项所述的方法,所述参考帧图像和所述待处理帧图像是相同时刻捕获得到的图像。7.一种基于多模态的图像检测装置,包括:第一获取模块,用于获取参考帧图像和待处理帧图像,所述参考帧图像和所述待处理帧图像的模态不相同;
识别模块,用于从所述参考帧图像之中识别出参考检测框;以及映射模块,用于将所述参考检测框映射至所述待处理帧图像之中...

【专利技术属性】
技术研发人员:岳海潇王珂尧冯浩城
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1