一种会议摄像头的发言人追踪方法、系统及存储介质技术方案

技术编号：39416167 阅读：13 留言：0更新日期：2023-11-19 16:07

本发明专利技术公开了一种会议摄像头的发言人追踪方法、系统及存储介质，该方法包括：步骤1：人脸检测，获取视频帧画面里的所有人脸边界框；步骤2：人脸追踪，获取所有人脸边界框的追踪轨迹；步骤3：人脸说话动作识别，获取人脸说话动作得分；步骤4：后处理判决，获取发言人的人脸位置。本发明专利技术提供的会议摄像头的发言人追踪方法、系统及存储介质中，不使用阵列麦克风声源定位技术，而是使用视频中发言人说话动作识别来对发言人进行定位和追踪，有效防止非发言人的误检，操作简洁、准确率高，解决了现有会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下，阵列麦克风声源定位算法不够准确等问题。风声源定位算法不够准确等问题。风声源定位算法不够准确等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种会议摄像头的发言人追踪方法、系统及存储介质

[0001]本专利技术属于计算机视觉
，具体涉及一种会议摄像头的发言人追踪方法、系统及存储介质。

技术介绍

[0002]当前，办公室视频会议系统在很多公司得到了广泛使用，其中相当重要的功能之一便是对发言人进行定位，然后显示发言人的特写。常见的视频会议发言人追踪方法是使用阵列麦克风声源定位技术和人脸检测算法，通常的流程是先进行声源定位，估计出方位后，在这个方向上进行人脸检测，提取发言人特写。但是，当会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下，阵列麦克风声源定位算法不够准确，并且只使用人脸检测只能证明阵列麦克风声源定位算法估计出来的声源位置有人，并不能证明这个人真在说话，因此，在音视频模组中常常结合人脸识别、声纹识别等技术使用，然而使用人脸识别和声纹识别需要提前进行注册，不够灵活。

技术实现思路

[0003]为解决现有技术中存在的技术问题，本专利技术的目的在于提供一种会议摄像头的发言人追踪方法、系统及存储介质。
[0004]为实现上述目的，达到上述技术效果，本专利技术采用的技术方案为：
[0005]一种会议摄像头的发言人追踪方法，包括以下步骤：
[0006]步骤1：人脸检测，获取视频帧画面里的所有人脸边界框；
[0007]步骤2：人脸追踪，获取所有人脸边界框的追踪轨迹；
[0008]步骤3：人脸说话动作识别，获取人脸说话动作得分；
[0009]步骤4：后处理判决，获取发...

【技术保护点】

【技术特征摘要】
1.一种会议摄像头的发言人追踪方法，其特征在于，包括以下步骤：步骤1：人脸检测，获取视频帧画面里的所有人脸边界框；步骤2：人脸追踪，获取所有人脸边界框的追踪轨迹；步骤3：人脸说话动作识别，获取人脸说话动作得分；步骤4：后处理判决，获取发言人的人脸位置。2.根据权利要求1所述的一种会议摄像头的发言人追踪方法，其特征在于，步骤1中，人脸检测，获取视频帧画面里的所有人脸边界框的步骤包括：使用高清广角摄像头拍摄采集连续的会议室全景视频帧，每获取一帧会议室全景图像，将原始4K图像压缩到适合摄像头模组NPU计算的尺寸，使用轻量级人脸检测器进行人脸检测，从而检测出当前视频帧画面里的所有人脸边界框。3.根据权利要求1所述的一种会议摄像头的发言人追踪方法，其特征在于，步骤2中，人脸追踪，获取所有人脸边界框的追踪轨迹的步骤包括：将步骤1获取到的每一帧视频帧所对应的所有人脸边界框输入到人脸追踪模型中，为每一个人脸边界框赋予一个追踪ID，从而得到所有人脸边界框的追踪轨迹。4.根据权利要求1所述的一种会议摄像头的发言人追踪方法，其特征在于，步骤3中，人脸说话动作识别，获取人脸说话动作得分的步骤包括：1)采集发言人人脸说话动作视频数据，制作数据集；2)构建说话动作识别模型；3)使用SpeakAction数据集训练说话动作识别模型；4)基于步骤1得到的人脸边界框坐标，从原始4K图像中截取人脸图像并压缩，基于步骤2得到的人脸ID，输入说话动作识别模型，得到当前帧时刻的人脸说话动作得分。5.根据权利要求1或4所述的一种会议摄像头的发言人追踪方法，其特征在于，步骤3中，共获取3类人脸说话动作得分，包括类1、类2、类3，将会出现连续张闭嘴的说话动作作为类1，将持续张嘴的笑、打哈欠等动作作为类2；将持续闭嘴的不说话动作作为类3。6.根据权利要求4所述的一种会议摄像头的发言人追踪方法，其特征在于，所述说话动作识别模型为shufflenetV2
‑
TSM模...

【专利技术属性】
技术研发人员：杨悦，陈冠岐，黄正林，王亮，王欢良，
申请(专利权)人：苏州奇梦者科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人