一种自动捕捉和追踪说话者的方法技术

技术编号:29412302 阅读:29 留言:0更新日期:2021-07-23 22:54
本发明专利技术涉及一种自动捕捉和追踪说话者的方法,包括:(1)麦克风阵列收集外部声音信号并发送给中央处理器,中央处理器分析是否有有效声音输入;(2)判断声音信号是否为人声信号;(3)采用声源定位算法分析出声音所在的方位,根据声音方位计算出摄像头模组的旋转角度,并根据旋转角度给旋转台发送控制指令;(4)旋转台根据控制指令调整摄像头模组的位置,摄像头模组在调整位置的过程中,捕捉视频数据并发送给中央处理器,中央处理器采用人脸识别算法实时分析捕捉的画面中是否捕捉到人脸;(5)中央处理器实时判断捕捉到的人脸图像是否达到最优。本发明专利技术提供能够使摄像头镜头始终能够快速地捕捉和追踪当前说话者,捕捉和追踪准确,精度高。

【技术实现步骤摘要】
一种自动捕捉和追踪说话者的方法
本专利技术涉及声音与图像信息融合
,特别是一种自动捕捉和追踪说话者的方法。
技术介绍
目前在普通的视频通话系统中,摄像头的位置和方向都是固定的,为了取得理想的视频通话效果,通话的双方或者多方必须在指定的范围内面向摄像头,以方便摄像头捕捉影像。然而,在实际使用中,往往存在一些应用场景,无法满足这个要求,例如:(1)视频通话的一方无法掌握视频通话的知识。例如未成年的儿童和留守的老人,老人们由于掌握知识所限,无法掌握视频通话的操作要领。儿童天性好动,无法固定地呆在一个固定的位置。而针对这两类群体的视频通话却往往是比较迫切的需求。(2)通话的一方本身就是处于运动状态,无法固定在一个确定的位置。比如通过远程视频通话进行授课的讲师、大堂的智能接待机器人迎接的客人等等。(3)通话的一方不是单独的一个人,而是一群人。比如围在一个会议桌周围进行视频会议的小组。发言在小组成员之间切换,视频通话系统需要根据发言人的不同切换摄像头镜头,追踪发言人的声音和影像。针对上述问题,通常的解决方案是通过手动或本文档来自技高网...

【技术保护点】
1.一种自动捕捉和追踪说话者的方法,其特征在于,包括以下步骤:/n(1)麦克风阵列收集外部声音信号并发送给中央处理器,中央处理器实时分析所述声音信号是否有有效声音输入,如果有有效声音输入则进入步骤(2),麦克风阵列包括多个麦克风;/n(2)判断声音信号是否为人声信号,如果是非人声信号则返回步骤(1),如果是人声信号则进入步骤(3);/n(3)采用声源定位算法分析出声音所在的方位,根据声音所在方位计算出摄像头模组的旋转角度,并根据旋转角度给旋转台发送控制指令,摄像头模组安装在旋转台上,旋转台可带动摄像头模组旋转;/n(4)旋转台根据控制指令调整摄像头模组的位置,摄像头模组在调整位置的过程中,捕捉...

【技术特征摘要】
1.一种自动捕捉和追踪说话者的方法,其特征在于,包括以下步骤:
(1)麦克风阵列收集外部声音信号并发送给中央处理器,中央处理器实时分析所述声音信号是否有有效声音输入,如果有有效声音输入则进入步骤(2),麦克风阵列包括多个麦克风;
(2)判断声音信号是否为人声信号,如果是非人声信号则返回步骤(1),如果是人声信号则进入步骤(3);
(3)采用声源定位算法分析出声音所在的方位,根据声音所在方位计算出摄像头模组的旋转角度,并根据旋转角度给旋转台发送控制指令,摄像头模组安装在旋转台上,旋转台可带动摄像头模组旋转;
(4)旋转台根据控制指令调整摄像头模组的位置,摄像头模组在调整位置的过程中,捕捉视频数据并发送给中央处理器,中央处理器采用人脸识别算法实时分析捕捉的画面中是否捕捉到人脸,如果捕捉到人脸,则进入步骤(5);
(5)中央处理器实时判断捕捉到的人脸图像是否达到最优,如果不是,则给旋转台发送控制指令,旋转台根据控制指令调整摄像头模组位置,不断地判断是否达到最优和调整摄像头模组,直至判断捕捉到的人脸图像达到最优。


2.根据权利要求1所述的自动捕捉和追踪说话者的方法,其特征在于,在所述步骤(2)中,采用梅尔倒频谱(MFC)人声识别算法将步骤(1)中的声音信号与通用人声模型进行匹配来判断声音信号是否为人声信号。


3.根据权利要求2所述的自动捕捉和追踪说话者的方法,其特征在于,所述步骤(3)中的声源定位算法采用达到时延声源方法,先计算声音达到麦克风阵列的各个麦克风的时延差,然后结合麦克风的空间布局,通过几何算...

【专利技术属性】
技术研发人员:韩琳
申请(专利权)人:广东水利电力职业技术学院广东省水利电力技工学校
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1