一种基于人脸检测的音频定位方法及装置制造方法及图纸

技术编号:23160865 阅读:26 留言:0更新日期:2020-01-21 21:48
本申请提供的基于人脸检测的音频定位方法及装置,获取使用音频定位算法确定的声源的位置信息,获取对图像进行人脸检测得到的人脸的位置信息,依据声源的位置信息,确定声源在图像中的位置信息,并依据声源在图像中的位置信息和人脸的位置信息,确定目标位置信息,最后依据目标位置信息和声源在图像中的位置信息,得到声源的校正后的位置信息。可见,本技术方案,通过将音频定位算法与对图像人脸检测算法相结合,得到声源的目标位置信息,因为,基于人脸检测算法得到的位置信息的准确度高,所以目标位置信息也是准确度较高的位置信息。同时,依据目标位置信息和声源在图像中的位置信息,对目标位置信息校正,使声源的校正后的位置信息更加准确。

【技术实现步骤摘要】
一种基于人脸检测的音频定位方法及装置
本申请涉及电子信息领域,尤其涉及一种基于人脸检测的音频定位方法及装置。
技术介绍
音频定位(也称声源定位)作为一种基于麦克风阵列的定位技术,在军用、民用、和工业上都得到了广泛的应用。例如,在民用领域,很多大型的活动场景中,可以利用音频定位技术对活动中的发言人进行定位,并将音频定位的结果用于调整摄像头的指向,使摄像头对准发言人进行拍摄,从而减少对摄像人员的依赖,进而可以减少劳动力成本。但现有的音频定位技术,对于一些复杂的场景,例如人员众多的场景,通常会发生定位不准确的问题,所以,如何提高音频定位的准确性,成为了目前亟需解决的问题。
技术实现思路
申请人研究的过程中发现:与基于音频定位相比,基于人脸检测得到的位置信息的准确性更高,因此,可以使用人脸检测得到的位置信息对音频定位的信息进行校正,以提高准确性。为了实现上述目的,本申请提供了以下技术方案:一种基于人脸检测的音频定位方法,包括:获取使用音频定位算法确定的声源的位置信息;获取对图像进行人脸检测得到的人脸的位置信息,所述图像的采集范围包括所述声源;依据所述声源的位置信息,确定所述声源在所述图像中的位置信息;依据所述声源在所述图像中的位置信息和所述人脸的位置信息,确定目标位置信息,所述目标位置信息为与所述声源的位置信息匹配的人脸的位置信息;依据所述目标位置信息和所述声源在所述图像中的位置信息,得到所述声源的校正后的位置信息。可选的,所述获取使用音频定位算法确定的声源的位置信息,包括:获取使用波达方向音频定位算法确定的声源的水平角度;所述依据所述声源的位置信息,确定所述声源在所述图像中的位置信息,包括:基于声音采集设备和图像采集设备,获取角度与图像坐标之间的映射关系;使用所述映射关系,确定所述声源的水平角度在所述图像中对应的横坐标,作为所述声源在所述图像中的位置信息。可选的,所述依据所述声源在所述图像中的位置信息和所述人脸的位置信息,确定目标位置信息,包括:将所述人脸的位置信息中的横坐标中,与所述声源在所述图像中的对应的横坐标的差值不大于预设阈值的横坐标,作为目标位置信息。可选的,所述依据所述目标位置信息和所述声源在所述图像中的位置信息,得到所述声源的校正后的位置信息,包括:将所述目标位置信息与第一数值之和,作为所述声源的校正后的位置信息,所述第一数值依据所述目标位置信息与所述声源在所述图像中对应的横坐标之差确定。可选的,使用音频定位算法确定的声源的位置信息,包括:确定多个麦克风对的互相关数值;确定互相关数值的峰值以及所述峰值对应的角度范围;从所述角度范围中确定所述峰值对应的角度;依据所述角度,确定所述声源的位置信息。一种基于人脸检测的音频定位装置,包括:第一获取单元,用于获取使用音频定位算法确定的声源的位置信息;第二获取单元,用于获取对图像进行人脸检测得到的人脸的位置信息,所述图像的采集范围包括所述声源;第一确定单元,用于依据所述声源的位置信息,确定所述声源在所述图像中的位置信息;第二确定单元,用于依据所述声源在所述图像中的位置信息和所述人脸的位置信息,确定目标位置信息,所述目标位置信息为与所述声源的位置信息匹配的人脸的位置信息;第三确定单元,用于依据所述目标位置信息和所述声源在所述图像中的位置信息,得到所述声源的校正后的位置信息。可选的,所述第一获取单元用于获取使用音频定位算法确定的声源的位置信息,包括:所述第一获取单元具体用于,获取使用波达方向音频定位算法确定的声源的水平角度;所述第一确定单元用于依据所述声源的位置信息,确定所述声源在所述图像中的位置信息,包括:所述第一确定单元具体用于,基于声音采集设备和图像采集设备,获取角度与图像坐标之间的映射关系;使用所述映射关系,确定所述声源的水平角度在所述图像中对应的横坐标,作为所述声源在所述图像中的位置信息。可选的,所述第二确定单元用于依据所述声源在所述图像中的位置信息和所述人脸的位置信息,确定目标位置信息,包括:所述第二确定单元具体用于,将所述人脸的位置信息中的横坐标中,与所述声源在所述图像中的对应的横坐标的差值不大于预设阈值的横坐标,作为目标位置信息。可选的,所述第三确定单元用于所述依据所述目标位置信息和所述声源在所述图像中的位置信息,得到所述声源的校正后的位置信息,包括:所述第三确定单元具体用于,将所述目标位置信息与第一数值之和,作为所述声源的校正后的位置信息,所述第一数值依据所述目标位置信息与所述声源在所述图像中对应的横坐标之差确定。可选的,所述第一获取单元用于获取使用音频定位算法确定的声源的位置信息,包括:所述第一获取单元具体用于,确定多个麦克风对的互相关数值;确定互相关数值的峰值以及所述峰值对应的角度范围;从所述角度范围中确定所述峰值对应的角度;依据所述角度,确定所述声源的位置信息。本申请所述的方法及装置,获取使用音频定位算法确定的声源的位置信息;同时获取对图像进行人脸检测得到的人脸的位置信息,依据声源的位置信息,确定声源在图像中的位置信息,依据声源在图像中的位置信息和人脸的位置信息,确定目标位置信息,最后依据目标位置信息和声源在图像中的位置信息,得到声源的校正后的位置信息。可见,本申请提供的技术方案,通过将音频定位算法确定的声源的位置信息,与对图像人脸检测得到的人脸的位置信息相结合,从而得到声源的目标位置信息,因为,基于人脸检测得到的位置信息的准确性高,且目标位置信息为与声源的位置信息匹配的人脸的位置信息,所以得到的目标位置信息是准确度较高的位置信息。同时,依据目标位置信息和声源在图像中的位置信息,对得到的目标位置信息进行校正,使声源的校正后的位置信息更加准确。综上,本技术方案可以提高音频定位的准确度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例公开的基于人脸检测的音频定位方法的流程图;图2为本申请实施例公开的使用音频定位算法确定声源的位置信息的方法的流程图;图3为本申请实施例公开的基于人脸检测的音频定位装置的结构示意图;图4为本申请实施例公开的一种电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请实施例提供的一种本文档来自技高网...

【技术保护点】
1.一种基于人脸检测的音频定位方法,其特征在于,包括:/n获取使用音频定位算法确定的声源的位置信息;/n获取对图像进行人脸检测得到的人脸的位置信息,所述图像的采集范围包括所述声源;/n依据所述声源的位置信息,确定所述声源在所述图像中的位置信息;/n依据所述声源在所述图像中的位置信息和所述人脸的位置信息,确定目标位置信息,所述目标位置信息为与所述声源的位置信息匹配的人脸的位置信息;/n依据所述目标位置信息和所述声源在所述图像中的位置信息,得到所述声源的校正后的位置信息。/n

【技术特征摘要】
1.一种基于人脸检测的音频定位方法,其特征在于,包括:
获取使用音频定位算法确定的声源的位置信息;
获取对图像进行人脸检测得到的人脸的位置信息,所述图像的采集范围包括所述声源;
依据所述声源的位置信息,确定所述声源在所述图像中的位置信息;
依据所述声源在所述图像中的位置信息和所述人脸的位置信息,确定目标位置信息,所述目标位置信息为与所述声源的位置信息匹配的人脸的位置信息;
依据所述目标位置信息和所述声源在所述图像中的位置信息,得到所述声源的校正后的位置信息。


2.根据权利要求1所述的基于人脸检测的音频定位方法,其特征在于,所述获取使用音频定位算法确定的声源的位置信息,包括:
获取使用波达方向音频定位算法确定的声源的水平角度;
所述依据所述声源的位置信息,确定所述声源在所述图像中的位置信息,包括:
基于声音采集设备和图像采集设备,获取角度与图像坐标之间的映射关系;
使用所述映射关系,确定所述声源的水平角度在所述图像中对应的横坐标,作为所述声源在所述图像中的位置信息。


3.根据权利要求2所述的基于人脸检测的音频定位方法,其特征在于,所述依据所述声源在所述图像中的位置信息和所述人脸的位置信息,确定目标位置信息,包括:
将所述人脸的位置信息中的横坐标中,与所述声源在所述图像中的对应的横坐标的差值不大于预设阈值的横坐标,作为目标位置信息。


4.根据权利要求3所述的基于人脸检测的音频定位方法,其特征在于,所述依据所述目标位置信息和所述声源在所述图像中的位置信息,得到所述声源的校正后的位置信息,包括:
将所述目标位置信息与第一数值之和,作为所述声源的校正后的位置信息,所述第一数值依据所述目标位置信息与所述声源在所述图像中对应的横坐标之差确定。


5.根据权利要求1所述的基于人脸检测的音频定位方法,其特征在于,使用音频定位算法确定的声源的位置信息,包括:
确定多个麦克风对的互相关数值;
确定互相关数值的峰值以及所述峰值对应的角度范围;
从所述角度范围中确定所述峰值对应的角度;
依据所述角度,确定所述声源的位置信息。


6.一种基于人脸检测的音频定位装置,其特征在于,包括:
第一获取单元,用于获取使用音频定位算法确定的声源的位置信息;

【专利技术属性】
技术研发人员:方向阳李骊
申请(专利权)人:北京华捷艾米科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1