基于声音辅助定位的人脸追踪方法、终端及存储装置制造方法及图纸

技术编号:24946434 阅读:36 留言:0更新日期:2020-07-17 23:00
本发明专利技术公开了一种基于声音辅助定位的人脸追踪方法、终端及存储装置,其中方法包括:获取摄像头拍摄的场景的图像;判断图像中是否存在目标对象的人脸;当图像中不存在目标对象的人脸时,通过声音采集装置采集场景中的所有声音;确认是否存在与目标对象对应的目标声音特征;当存在与目标对象对应的目标声音特征时,基于目标声音特征计算得到目标对象的空间位置,再控制摄像头对准空间位置以追踪目标对象的人脸。通过上述方式,本申请能够在摄像机失去跟踪的目标对象时,通过声音定位目标的位置,并控制摄像头继续跟踪目标。

【技术实现步骤摘要】
基于声音辅助定位的人脸追踪方法、终端及存储装置
本申请涉及人脸追踪
,特别是涉及一种基于声音辅助定位的人脸追踪方法、终端及存储装置。
技术介绍
随着视频摄像技术的发展,摄像头已经成为计算机必不可少的配置之一,家庭娱乐、教学视频、智能机器人领域等领域均需要用到摄像头,而为了提高用户体验,现有的摄像头通过人脸识别和追踪算法,可以实现实时追踪人脸,将摄像头聚焦与目标人物身上,例如在教学视频录制过程中,讲师讲课时经常会来回走动,在黑板上书写,走一圈巡视或者朗读文章等,通过摄像头识别讲师的人脸信息,并追踪讲师,提高上课质量,但是,当讲师快速移动至摄像头拍摄区域之外时,因无法继续追踪人脸而导致摄像头不能够继续追踪拍摄,影响追踪拍摄的效果;再例如录制会议现场时,当发言人不断切换时,摄像头难以追踪拍摄到每个发言人,录制效果差。
技术实现思路
本申请提供一种基于声音辅助定位的人脸追踪方法、终端及存储装置,以解决现有人脸追踪摄像头无法追踪视野范围外的目标的问题。为解决上述技术问题,本申请采用的一个技术方案是:提供一种基于声音辅助定位的人脸追踪方法,包括:获取摄像头拍摄的场景的图像;判断图像中是否存在目标对象的人脸;当图像中不存在目标对象的人脸时,通过声音采集装置采集场景中的所有声音;确认是否存在与目标对象对应的目标声音特征;当存在与目标对象对应的目标声音特征时,基于目标声音特征计算得到目标对象的空间位置,再控制摄像头对准空间位置以追踪目标对象的人脸。为解决上述技术问题,本申请采用的另一个技术方案是:提供一种终端,该终端包括处理器、与处理器耦接的存储器、摄像头以及声音采集装置,其中,存储器存储有用于实现上述基于声音辅助定位的人脸追踪方法的程序指令;处理器用于执行存储器存储的程序指令以追踪目标对象的人脸;摄像头用于获取场景中的图像;声音采集装置用于采集场景中的所有声音。为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储装置,存储有能够实现上述基于声音辅助定位的人脸追踪方法的程序文件。本申请的有益效果是:本专利技术的基于声音辅助定位的人脸追踪方法、终端及存储装置通过追踪目标对象的人脸,从而实现对目标对象的跟踪拍摄,并且当目标对象处于摄像头的当前拍摄范围之外时,通过目标对象发出的目标声音特征确定目标对象的空间位置,在控制摄像头聚焦该空间位置以追踪目标对象,本专利技术使得当目标对象不在摄像头的拍摄范围之内时,可以根据目标对象的声音来确定目标对象的空间位置,并继续跟踪目标对象,避免了视频拍摄过程中目标对象丢失的问题。附图说明图1是本专利技术第一实施例的基于声音辅助定位的人脸追踪方法的流程示意图;图2是本专利技术第二实施例的基于声音辅助定位的人脸追踪方法的流程示意图;图3是本专利技术第二实施例的声球联动模型示意图;图4是本专利技术第二实施例的目标对象空间坐标转换为二维坐标的示意图;图5是本专利技术第三实施例的基于声音辅助定位的人脸追踪方法的流程示意图;图6是本专利技术第四实施例的基于声音辅助定位的人脸追踪方法的流程示意图;图7是本专利技术实施例的基于声音辅助定位的人脸追踪装置的结构示意图;图8是本专利技术实施例的终端的结构示意图;图9是本专利技术实施例的存储装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。图1是本专利技术第一实施例的基于声音辅助定位的人脸追踪方法的流程示意图。需注意的是,若有实质上相同的结果,本专利技术的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:步骤S101:获取摄像头拍摄的场景的图像。在步骤S101中,在开启摄像头进行跟踪拍摄时,首先将摄像头移动到初始设定的画面。步骤S102:判断图像中是否存在目标对象的人脸。当图像中不存在目标对象的人脸时,则执行步骤S103。在步骤S102中,目标对象是追踪需要追踪的人员,其人脸的特征信息预先录入存储。具体地,在摄像头开始追踪拍摄时,通过采集图像中所有的人脸的特征信息,进而根据特征信息判断图像中是否存在目标对象的人脸;当图像中存在目标对象的人脸时,锁定目标对象,控制摄像头自动聚焦目标对象并且变倍放大使目标对象在画面中居中,从而显示出清晰的目标对象的画面。进一步的,可通过智能算法将目标对象通过方框框选出来,当目标对象移动时画面上的方框也跟着移动,当目标静止时方框也静止,以保证跟踪的目标对象不丢失;此外,还可通过将框选目标对象的方框始终固定在图像的中央位置,当目标对象移动时,控制摄像头跟随移动,保证方框始终处于图像的中央位置,以跟踪目标对象。步骤S103:通过声音采集装置采集场景中的所有声音。在步骤S103中,声音采集装置预先设置在场景中,当图像中不存在目标对象的人脸时,通过声音采集装置获取场景中所有的声音并进行分析,得到每一种声音的声音特征,例如:当场景中同时存在两个人说话时,则会采集到两个人的声音,通过分析可以得到两种声音特征。步骤S104:确认是否存在与目标对象对应的目标声音特征。当存在与目标对象对应的目标声音特征时,执行步骤S105。在步骤S104中,将采集的所有声音的声音特征与目标对象的声音特征一一进行匹配,当存在与目标对象的声音特征匹配的目标声音特征时,执行步骤S105。进一步的,当目标对象不处于摄像头的图像中,且较长时间内未检测到目标对象的目标声音特征时,还可以控制摄像头移动到初始设定的画面,停止对目标对象的跟踪拍摄。步本文档来自技高网...

【技术保护点】
1.一种基于声音辅助定位的人脸追踪方法,其特征在于,包括:/n获取摄像头拍摄的场景的图像;/n判断所述图像中是否存在目标对象的人脸;/n当所述图像中不存在目标对象的人脸时,通过声音采集装置采集所述场景中的所有声音;/n确认是否存在与所述目标对象对应的目标声音特征;/n当存在与所述目标对象对应的目标声音特征时,基于所述目标声音特征计算得到所述目标对象的空间位置,再控制所述摄像头对准所述空间位置以追踪所述目标对象的人脸。/n

【技术特征摘要】
1.一种基于声音辅助定位的人脸追踪方法,其特征在于,包括:
获取摄像头拍摄的场景的图像;
判断所述图像中是否存在目标对象的人脸;
当所述图像中不存在目标对象的人脸时,通过声音采集装置采集所述场景中的所有声音;
确认是否存在与所述目标对象对应的目标声音特征;
当存在与所述目标对象对应的目标声音特征时,基于所述目标声音特征计算得到所述目标对象的空间位置,再控制所述摄像头对准所述空间位置以追踪所述目标对象的人脸。


2.根据权利要求1所述的方法,其特征在于,
所述声音采集装置包括至少四个声音接收装置,且所述至少四个声音接收装置分设于不同位置且处于不同平面;
所述基于所述目标声音特征计算得到所述目标对象的空间位置,再控制所述摄像头对准所述空间位置以追踪所述目标对象的人脸的步骤,包括:
获取所述至少四个声音接收装置接收到所述目标对象的声音的时间差;
利用所述声音接收装置相对于所述摄像头的坐标位置、以及所述时间差计算所述目标对象相对于所述摄像头的相对坐标;
基于所述相对坐标控制所述摄像头移动以聚焦所述相对坐标。


3.根据权利要求2所述的方法,其特征在于,
所述基于所述相对坐标控制所述摄像头移动以聚焦所述相对坐标的步骤之后,还包括:
判断所述时间差是否发生了变化;
若是,则计算得到在不同时间的相对坐标,再通过所述不同时间的相对坐标计算得到所述目标对象的移动速度和方向,再基于所述移动速度和方向控制所述摄像头移动以追踪所述目标对象的人脸。


4.根据权利要求1所述的方法,其特征在于,
所述方法还包括:
预先在不同场景采集所述目标对象的不同音量大小的声音;
过滤所述声音中的杂音和静音部分,并提取过滤后的声音的声音特征通过神经网络进行学习训练,得到目标对象的声音特征;
将所述目标对象的声音特征存储至数据库。


5.根据权利要求4所述的方法,其特征在于,
所述确认是否存在与所述目标对象对应的目标...

【专利技术属性】
技术研发人员:陈明珠项宇宁杨增启徐金华
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1