基于深度学习的视频会议场景人形检测方法技术

技术编号：32133333 阅读：14 留言：0更新日期：2022-01-29 19:37

本发明专利技术公开了一种基于深度学习的视频会议场景人形检测方法，用于在视频会议场景中提取全景图像并检测各个人员在图像中的位置，有助于实现局部画面聚焦、辅助语音增强等；该方法使用摄像机从会议场景中采集原始全景图像并矫正；将矫正后的矩形全景图像拼接映射成长宽相等的方形图像，并作归一化预处理和数据增强；构建基于残差网络

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的视频会议场景人形检测方法

[0001]本专利技术涉及机器视觉领域，具体设计一种基于深度学习的视频会议场景人形检测方法。

技术介绍

[0002]视频会议中的人形检测常用来实现说话人聚焦、辅助语音定向增强等功能。但是，在复杂的会议室场景中，由于参会人数多、座位密集、光线不均衡、人员移动随机等因素的影响，常规目标检测算法在此应用场景下的性能大幅下降。同时，会议室中所使用的摄像头通常是超广角或全景摄像头，画幅较广，单个人体目标在画面中的占比小，可利用的特征有限。此外，会议室中的人员往往是坐姿，且身体会被桌椅、电脑等会议设施部分遮挡，可提供的有效信息更加匮乏。因此，视频会议场景下的人形检测任务成为一种普遍的难题。
[0003]传统的人形检测算法，往往采用手工设计算子来提取一些特征来进行分析。Viola Jones检测器采用滑动窗口查看图像中所有可能的位置和比例，检查目标是否存在窗口之中。这种方法结合了“积分图像”、“特征选择”和“检测级联”三种重要技术，大大提高了检测速度。方向梯度直方图(HOG)特征描述符也曾被用来解决行人检测问题，其可以用来平衡特征不变性(包括平移、尺度、光照等)和非线性(区分不同对象类别)。DPM算法在HOG算法的基础上进行改进和延伸，由一个主过滤器和多个辅过滤器组成，通过硬负挖掘，边框回归和上下文启动技术改进检测精度。作为最优的传统检测算法，DPM方法运算速度快，能够适应物体形变，但它无法适应大幅度的旋转，因此稳定性差。
[0004]近年来快速发展的深度学习算法在检测领域也...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的视频会议场景人形检测方法，其特征在于，包括如下步骤：步骤(A)、使用摄像机从会议场景中获取矩形全景图像，并对其进行矫正；步骤(B)、将矫正后的矩形全景图像拼接映射成长宽相等的方形图像，并作归一化预处理和数据增强操作，随后进行归一化处理，其中归一化预处理和数据增强操作，具体为随机翻转、区域裁剪和区域掩盖重组；步骤(C)、构建基于残差网络
‑
特征金字塔网络的深度学习模型作为基线模型，输入步骤(B)中处理完成的图像，输出图像中所有人体的矩形位置边框；步骤(D)、在步骤(C)中基线模型的基础上引入边界框回归网络，计算出人体目标四周边框位置以及置信度和中心加权；步骤(E)、引入自适应焦点损失训练模型，根据训练后的人形检测模型输入步骤(B)中获取的会议场景图像，检测出对应与会者的位置。2.根据权利要求1所述的一种基于深度学习的视频会议场景人形检测方法，其特征在于，步骤(A)、使用摄像机从会议场景中获取矩形全景图像，并对其进行矫正，包括以下步骤，步骤(A1)、将带有180度鱼眼镜头的摄像头设备置于会议室正中心，拍摄出带有畸变的会议室全景图像；步骤(A2)、利用OpenCV棋盘格标定法对采集到的会议室全景图像进行矫正分析，使用鱼眼摄像头拍摄固定大小的棋盘格图片，将图像做二值化操作后，经过对图像的腐蚀和膨胀操作，遍历每一个方格的轮廓并获取所有小方格的角点，根据这些角点的畸变情况，对镜头参数进行标定，获取相机镜头参数，输入待矫正图像，通过透镜畸变前后的坐标对应关系进行坐标变换，得到正常非畸变的矩形全景照片。3.根据权利要求1所述的一种基于深度学习的视频会议场景人形检测方法，其特征在于，步骤(B)，将矫正后的矩形全景图像拼接映射成长宽相等的方形图像，并作归一化预处理和数据增强，随后进行归一化处理，其中归一化预处理和数据增强操作，具体为随机翻转、区域裁剪和区域掩盖重组，包括以下步骤，步骤(B1)、取步骤(A)中摄像机矫正后输出的边长为3000
×
1000的包含会议室中360
°
环形场景信息的矩形全景图像，纵向裁剪边长为2000
×
1000的两个原始矩形图像，再将其上下拼接成边长为2000
×
2000的方形图像，用于适配深度学习检测器的输入形状比例；步骤(B2)、将拼接后的方形图像与原矩形图像位置一一映射，方形图像的上半部分直接映射为原矩形图像的x∈[0，2000)位置，下半部分由原图的x∈[0，500)，x∈[1500，3000)多段拼接而成的边长为2000
×
1000的图像，用于避免全景图像被割裂；步骤(B3)、矫正后的图像映射到原图位置之后，进行非极大值抑制，用于避免步骤(B1)拼接后图像的重复检测；步骤(B4)、对拼接后的方形图像进行数据增强，在原图的基础上进行上下左右随机翻转，而后对包含人体目标的部分图像区域进行随机裁剪，对不包含人体目标的图像区域进行涂抹或马赛克方式掩盖；步骤(B5)、对进行数据增强后的方形图像做归一化处理，将每个像素值变为(0，1)区间的小数，再将输入图像压缩至边长为512
×
512的大小，作为模型的输入图像。4.根据权利要求1所述的一种基于深度学习的视频会议场景人形检测方法，其特征在
于，步骤(C)，构建基于残差网络
‑
特征金字塔网络的深度学习模型作为基线模型，输入步骤(B)中处理完成的图像，输出图像中所有...

【专利技术属性】
技术研发人员：丁帆，任永忠，梅宇青，王沛，曾德军，陶宇，
申请(专利权)人：深圳市音络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人