一种录播系统中教师检测与跟踪方法及系统技术方案

技术编号:27936867 阅读:20 留言:0更新日期:2021-04-02 14:17
本发明专利技术的一种录播系统中教师检测与跟踪方法及系统,包括以下步骤:S100、通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;S200、对预处理的图像进行缩放;S300、把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;S400、获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪。本发明专利技术采用卷积网络作为老师特征的提取,能够克服运动检测方法对光线敏感性,提高目标的检测率,与常见的检测网络相比,能够更好的平衡复杂度与精准度之间的关系,采用卡尔曼滤波处理,不仅能修正检测的目标,还能解决运动模糊带来的目标丢失的问题。

【技术实现步骤摘要】
一种录播系统中教师检测与跟踪方法及系统
本专利技术涉及运动检测
,具体涉及一种录播系统中教师检测与跟踪方法及系统。
技术介绍
随着教育和科技的发展,传统的语音教育已经不能满足教育方式多元化的需要。教师进行课堂教育教学方式越来越追求可视化,学生通过课堂学习能力要求探究合作化,然而对于这些问题要求的实现,很大程度上要借助于现代化的信息管理技术基础设施,特别是课堂实践教学的可视化。现有可使用的技术主要是基于运动检测的方法和模式识别的方法。基于运动检测的方法主要是采用背景建模等方法确定目标区域,然后基于特征来检测行人,这种方法最大的缺点是特别容易受到光线的干扰,检测出错误的目标;基于模式识别的方法主要是采用人工设计的特征,经过少量样本的训练然后用分类器进行分类,典型的组合是HOG特征和SVM分类器结合,这种方法在识别人这种非刚性的物体时精准度也不高。随着人工智能的发展,基于深度学习的方法广泛应用到目标检测与识别任务,其中最具代表性的有YOLO、SSD等端到端的检测网络,这些网络基于图像的检测精准度高,但是在视频处理时由于运动模糊的原因检测率会降低,并且网络计算复杂度高。
技术实现思路
本专利技术提出的一种录播系统中教师检测与跟踪方法及系统,是在保证教师检测准确率的情况下,降低检测模型的复杂度,并使用卡尔曼滤波对坐标进行校正和预测。为实现上述目的,本专利技术采用了以下技术方案:包括以下步骤:S100、通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;S200、对预处理的图像进行缩放;S300、把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;S400、获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪。进一步的,所述S100中的对图像进行预处理为对图像做高斯滤波预处理操作。进一步,所述S300中的训练好的教师检测网络,其中网络架构包含两个部分:backbone和ExtraLayers;backbone部分是对浅层特征的提取,所述backbone后面加入了RFB模块,RFB是一个多分支的卷积块,内部结构包含两部分:一、不同卷积核尺度的多分支卷积,用于模拟多尺度的人眼感受野;二、虫洞卷积操作,用于模拟人类视觉感知中感受野尺度与离心率间的关系;其中多分支结构,具体地:先1×1卷积降低特征图的通道数,在每个分支上形成BottleNeck结构,再接n×n卷积;把5×5卷积替换为两个堆叠的3×3卷积,不仅降低了参数量,也增加了模型的非线性能力,并进一步使用1×n+n×1卷积替换n×n卷积,增加shortcut设计;其次通过虫洞卷积来模拟人眼感受野,具体地,每个分支的常规卷积操作后,连接一个dilates卷积层,模拟人眼感受野的尺度与离心率。进一步,S300中的教师检测网络整个网络的构建包含三个基本操作:basicConv层、池化层MaxPool2d、RFB层;basicConv层又包含三个基本操作:卷积层conv2d、批归一化层BatchNorm2d、激活层ReLU;Backbone部分由4层basicConv和MaxPool2d组合而成;输入图像通过第一层basicConv得到32×300×300的特征图,然后通过MaxPool2d把特征图处理成32×150×150,然后依次通过第二层、第三层basicConv和MaxPool2d的组合处理得到128×38×38的特征图;ExtraLayers部分由RFB层和五层basicConv组合而成;经过RFB处理后得到一个抽头F1,然后依次经过五层basicConv得到64×1×1的特征图并且分别得到五个抽头F2、F3、F4、F5、F6,最终把六个抽头送到检测层进行检测与定位。进一步的,RFB模块划分成三个部分:一个分支结构、shortcut模块、激活单元ReLU;其中,分支结构首先通过三个1×1的basicConv操作,在每个分支下分别接不同的卷积处理,最左边的一个分支连接一个3×3的basicConv操作后使用rate=1的空洞处理;中间一个分支依次经过两个3×3的basicConv操作后使用rate=3的空洞处理;右边一个分支依次经过5×5和3×3的basicConv操作后使用rate=5的空洞处理,三个分支最终通过连接处理接一个1×1的basicConv操作;shortcut模块就是在最右边的分支1×1的basicConv操作后与分支结构的处理结果连接送入到ReLU层进行处理。进一步的,所述训练好的教师检测网络的训练步骤如下:(c1)收集老师课堂场景图片,按照COCO或者VOC格式对图像进行标注;(c2)把图片按照3:1:1分成训练集、测试集、验证集;(c3)利用Pytorch搭建设计好的网络结构;(c4)调节学习率、批大小、训练次数这些超参数;(c5)得到收敛后的网络权重文件。进一步的,所述S300中的把缩放后的图像放入到训练好的教师检测网络进行检测,其中具体检测步骤如下:利用前向推理网络加载训练好的权重文件;把输入图像scale变换为300*300的大小送入检测网络;检测网络逐层提取特征并在DetectionConvLayers层给出目标的坐标位置及该目标的可能性得分;该得分跟预先设定的阈值0.6进行比较,如果大于0.6则判定该目标是老师并返回坐标位置,如果该得分小于0.6判定为没有目标。进一步的,所述S400中的预测模块采用卡尔曼滤波算法,卡尔曼滤波算法包括预测与校正两个阶段;在预测阶段,滤波器使用上一状态的估计,做出对当前状态的预测;在校正阶段,滤波器利用对当前状态的观测值修正在预测阶段获得的预测值,以获得一个更接进真实值的新估计值;其中,卡尔曼滤波器计算过程如下:预测:P′k=APk-1AT+Q校正:Kk=P′kHT(HP′kHT+R)-1更新协方差估计:Pk=(I-KkH)P′k其中,xk表示真实值,表示卡尔曼估计值,表示预测值,Pk表示卡尔曼估计误差协方差矩阵,P′k表示预测误差协方差矩阵,Kk表示卡尔曼增益,表示测量余量,zk表示测量向量,A表示状态转移矩阵,B表示控制矩阵,μk表示控制向量,H表示测量矩阵。另一方面,一种录播系统中教师检测与跟踪系统,包括以下单元,图像采集模块,用于通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;图像缩放模块,用于对预处理的图像进行缩放;教师检测模块,把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;云台控制模块,用于获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪。进一步的,包括以下子单元,目标预测模块,用于在预测阶段使滤波器使用上一状态的估计,做本文档来自技高网...

【技术保护点】
1.一种录播系统中教师检测与跟踪方法,其特征在于:/n包括以下步骤:/nS100、通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;/nS200、对预处理的图像进行缩放;/nS300、把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;/nS400、获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪。/n

【技术特征摘要】
1.一种录播系统中教师检测与跟踪方法,其特征在于:
包括以下步骤:
S100、通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;
S200、对预处理的图像进行缩放;
S300、把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;
S400、获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪。


2.根据权利要求1所述的录播系统中教师检测与跟踪方法,其特征在于:所述S100中的对图像进行预处理为对图像做高斯滤波预处理操作。


3.根据权利要求1所述的录播系统中教师检测与跟踪方法,其特征在于:所述S300中的训练好的教师检测网络,其中网络架构包含两个部分:backbone和ExtraLayers;
backbone部分是对浅层特征的提取,所述backbone后面加入了RFB模块,RFB是一个多分支的卷积块,内部结构包含两部分:一、不同卷积核尺度的多分支卷积,用于模拟多尺度的人眼感受野;二、虫洞卷积操作,用于模拟人类视觉感知中感受野尺度与离心率间的关系;
其中多分支结构,具体地:先1×1卷积降低特征图的通道数,在每个分支上形成BottleNeck结构,再接n×n卷积;把5×5卷积替换为两个堆叠的3×3卷积,不仅降低了参数量,也增加了模型的非线性能力,并进一步使用1×n+n×1卷积替换n×n卷积,增加shortcut设计;其次通过虫洞卷积来模拟人眼感受野,具体地,每个分支的常规卷积操作后,连接一个dilates卷积层,模拟人眼感受野的尺度与离心率。


4.根据权利要求3所述的录播系统中教师检测与跟踪方法,其特征在于:
S300中的教师检测网络整个网络的构建包含三个基本操作:basicConv层、池化层MaxPool2d、RFB层;
basicConv层又包含三个基本操作:卷积层conv2d、批归一化层BatchNorm2d、激活层ReLU;
Backbone部分由4层basicConv和MaxPool2d组合而成;
输入图像通过第一层basicConv得到32×300×300的特征图,然后通过MaxPool2d把特征图处理成32×150×150,然后依次通过第二层、第三层basicConv和MaxPool2d的组合处理得到128×38×38的特征图;
ExtraLayers部分由RFB层和五层basicConv组合而成;
经过RFB处理后得到一个抽头F1,然后依次经过五层basicConv得到64×1×1的特征图并且分别得到五个抽头F2、F3、F4、F5、F6,最终把六个抽头送到检测层进行检测与定位。


5.根据权利要求4所述的录播系统中教师检测与跟踪方法,其特征在于:
RFB模块划分成三个部分:一个分支结构、shortcut模块、激活单元ReLU;
其中,分支结构首先通过三个1×1的basicConv操作,在每个分支下分别接不同的卷积处理,最左边的一个分支连接一个3×3的basicConv操作后使用rate=1的空洞处理;中间一个分支依次经过两个3×3的basicConv操作后使用rate=3的空洞处理;右边一个分支依次经过5×5...

【专利技术属性】
技术研发人员:张进蒋守欢朱于平王满海
申请(专利权)人:安徽天虹数码科技股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1