一种会议摄像头的发言人追踪方法、系统及存储介质技术方案

技术编号:39416167 阅读:13 留言:0更新日期:2023-11-19 16:07
本发明专利技术公开了一种会议摄像头的发言人追踪方法、系统及存储介质,该方法包括:步骤1:人脸检测,获取视频帧画面里的所有人脸边界框;步骤2:人脸追踪,获取所有人脸边界框的追踪轨迹;步骤3:人脸说话动作识别,获取人脸说话动作得分;步骤4:后处理判决,获取发言人的人脸位置。本发明专利技术提供的会议摄像头的发言人追踪方法、系统及存储介质中,不使用阵列麦克风声源定位技术,而是使用视频中发言人说话动作识别来对发言人进行定位和追踪,有效防止非发言人的误检,操作简洁、准确率高,解决了现有会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下,阵列麦克风声源定位算法不够准确等问题。风声源定位算法不够准确等问题。风声源定位算法不够准确等问题。

【技术实现步骤摘要】
一种会议摄像头的发言人追踪方法、系统及存储介质


[0001]本专利技术属于计算机视觉
,具体涉及一种会议摄像头的发言人追踪方法、系统及存储介质。

技术介绍

[0002]当前,办公室视频会议系统在很多公司得到了广泛使用,其中相当重要的功能之一便是对发言人进行定位,然后显示发言人的特写。常见的视频会议发言人追踪方法是使用阵列麦克风声源定位技术和人脸检测算法,通常的流程是先进行声源定位,估计出方位后,在这个方向上进行人脸检测,提取发言人特写。但是,当会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下,阵列麦克风声源定位算法不够准确,并且只使用人脸检测只能证明阵列麦克风声源定位算法估计出来的声源位置有人,并不能证明这个人真在说话,因此,在音视频模组中常常结合人脸识别、声纹识别等技术使用,然而使用人脸识别和声纹识别需要提前进行注册,不够灵活。

技术实现思路

[0003]为解决现有技术中存在的技术问题,本专利技术的目的在于提供一种会议摄像头的发言人追踪方法、系统及存储介质。
[0004]为实现上述目的,达到上述技术效果,本专利技术采用的技术方案为:
[0005]一种会议摄像头的发言人追踪方法,包括以下步骤:
[0006]步骤1:人脸检测,获取视频帧画面里的所有人脸边界框;
[0007]步骤2:人脸追踪,获取所有人脸边界框的追踪轨迹;
[0008]步骤3:人脸说话动作识别,获取人脸说话动作得分;
[0009]步骤4:后处理判决,获取发言人的人脸位置。
[0010]进一步的,步骤1中,人脸检测,获取视频帧画面里的所有人脸边界框的步骤包括:
[0011]使用高清广角摄像头拍摄采集连续的会议室全景视频帧,每获取一帧会议室全景图像,将原始4K图像压缩到适合摄像头模组NPU计算的尺寸,使用轻量级人脸检测器进行人脸检测,从而检测出当前视频帧画面里的所有人脸边界框。
[0012]进一步的,步骤2中,人脸追踪,获取所有人脸边界框的追踪轨迹的步骤包括:
[0013]将步骤1获取到的每一帧视频帧所对应的所有人脸边界框输入到人脸追踪模型中,为每一个人脸边界框赋予一个追踪ID,从而得到所有人脸边界框的追踪轨迹。
[0014]进一步的,步骤3中,人脸说话动作识别,获取人脸说话动作得分的步骤包括:
[0015]1)采集发言人人脸说话动作视频数据,制作数据集;
[0016]2)构建说话动作识别模型;
[0017]3)使用SpeakAction数据集训练说话动作识别模型;
[0018]4)基于步骤1得到的人脸边界框坐标,从原始4K图像中截取人脸图像并压缩,基于步骤2得到的人脸ID,输入说话动作识别模型,得到当前帧时刻的人脸说话动作得分。
[0019]进一步的,步骤3中,共获取3类人脸说话动作得分,包括类1、类2、类3,将会出现连续张闭嘴的说话动作作为类1,将持续张嘴的笑、打哈欠等动作作为类2;将持续闭嘴的不说话动作作为类3。
[0020]进一步的,所述说话动作识别模型为shufflenetV2

TSM模型,使用轻量级分类网络shufflenetV2为模型主干网络并在其每个shuffleBlock之前插入TSM模块以融合时序上的动作信息。
[0021]进一步的,步骤4中,后处理判决,获取发言人的人脸位置的步骤包括:
[0022]1)所述说话动作识别模型按时序输入视频帧,每输入一帧图像,输出3类嘴唇动作对应的得分,使用平滑窗口对当前时刻至过去一段时间T内的输出得分进行平滑,若平滑后类1得分最高,则初步判断当前帧的人脸在说话;
[0023]2)若当前帧满足类1得分最高,则对类1设置平滑窗口阈值Thresh_seg,判断在窗口t时间内,t<T,若类1得分的累加的平均值满足阈值Thresh_seg,则进一步认为当前帧的人脸在说话;
[0024]3)对类1设置平滑峰值阈值Thresh_peak,Thresh_peak>Thresh_seg;若当前帧过去窗口t时间内满足阈值Thresh_seg,则进一步判断窗口t时间内是否存在类1的最高得分大于Thresh_peak的帧,若满足,则最终判定当前帧的人脸在说话,从而得到发言人的人脸位置。
[0025]本专利技术还公开了一种会议摄像头的发言人追踪系统,包括:
[0026]高清广角摄像头,用于采集会议室全景数据,保证会议室每个座位的参会者的人脸不会被遮挡或丢失;
[0027]发言人追踪模块,用于检测会议室内发言人位置信息。根据参会者人脸说话动作识别来判断是否是发言人,并发送检测到的发言人位置信息;
[0028]视频特写模块,用于对发言人进行特写展示。
[0029]本专利技术还公开了一种电子设备,包括:
[0030]存储器,用于存储计算机程序;
[0031]处理器,用于通过调用计算机程序,执行如上所述的一种会议摄像头的发言人追踪方法。
[0032]本专利技术还公开了一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的一种会议摄像头的发言人追踪方法。
[0033]与现有技术相比,本专利技术的有益效果为:
[0034]本专利技术公开了一种会议摄像头的发言人追踪方法、系统及存储介质,不使用阵列麦克风声源定位技术,而是使用视频中发言人说话动作识别来对发言人进行定位和追踪,克服噪声混响和多人同时对话时定位追踪不够准确的问题,操作简洁、准确率高。
附图说明
[0035]图1为本专利技术的流程图;
[0036]图2为本专利技术的人脸说话动作视频数据图;
[0037]图3为本专利技术的说话动作识别模型的结构图;
[0038]图4为本专利技术的后处理判决的流程图。
具体实施方式
[0039]下面对本专利技术进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。
[0040]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
[0041]如图1

4所示,一种会议摄像头的发言人追踪方法,包括如下步骤:
[0042]步骤1:人脸检测。使用高清广角摄像头拍摄采集连续的会议室全景视频帧。每获取一帧会议室全景图像,将原始4K图像压缩到适合摄像头模组NPU计算的尺寸,使用轻量级人脸检测器进行人脸检测,从而检测出当前视频帧画面里的所有人脸边界框;
[0043]步骤2:人脸追踪。将步骤1获取到的每一帧视频帧所对应的所有人脸边界框输入到人脸追踪模型中,为每一个人脸边界框赋予一个追踪ID,得到所有人脸边界框的追踪轨迹;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种会议摄像头的发言人追踪方法,其特征在于,包括以下步骤:步骤1:人脸检测,获取视频帧画面里的所有人脸边界框;步骤2:人脸追踪,获取所有人脸边界框的追踪轨迹;步骤3:人脸说话动作识别,获取人脸说话动作得分;步骤4:后处理判决,获取发言人的人脸位置。2.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤1中,人脸检测,获取视频帧画面里的所有人脸边界框的步骤包括:使用高清广角摄像头拍摄采集连续的会议室全景视频帧,每获取一帧会议室全景图像,将原始4K图像压缩到适合摄像头模组NPU计算的尺寸,使用轻量级人脸检测器进行人脸检测,从而检测出当前视频帧画面里的所有人脸边界框。3.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤2中,人脸追踪,获取所有人脸边界框的追踪轨迹的步骤包括:将步骤1获取到的每一帧视频帧所对应的所有人脸边界框输入到人脸追踪模型中,为每一个人脸边界框赋予一个追踪ID,从而得到所有人脸边界框的追踪轨迹。4.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤3中,人脸说话动作识别,获取人脸说话动作得分的步骤包括:1)采集发言人人脸说话动作视频数据,制作数据集;2)构建说话动作识别模型;3)使用SpeakAction数据集训练说话动作识别模型;4)基于步骤1得到的人脸边界框坐标,从原始4K图像中截取人脸图像并压缩,基于步骤2得到的人脸ID,输入说话动作识别模型,得到当前帧时刻的人脸说话动作得分。5.根据权利要求1或4所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤3中,共获取3类人脸说话动作得分,包括类1、类2、类3,将会出现连续张闭嘴的说话动作作为类1,将持续张嘴的笑、打哈欠等动作作为类2;将持续闭嘴的不说话动作作为类3。6.根据权利要求4所述的一种会议摄像头的发言人追踪方法,其特征在于,所述说话动作识别模型为shufflenetV2

TSM模...

【专利技术属性】
技术研发人员:杨悦陈冠岐黄正林王亮王欢良
申请(专利权)人:苏州奇梦者科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1