一种音视频控制设备中图像跟踪方法技术

技术编号:31839508 阅读:17 留言:0更新日期:2022-01-12 13:18
本发明专利技术提出了一种音视频控制设备中图像跟踪方法,其步骤为:首先,获取视频流对应的序列帧图像,并在第一帧图像中选取候选区域,初始化目标图像的位置和初始尺度;其次,利用提取的当前帧图像的搜索区域图的HOG特征和颜色直方图特征计算的搜索区域图的响应图,作为预测目标位置区域;最后,获取预测目标位置的预测尺度,并根据设计的异常值检测器判断当前帧图像的特征响应图是否处于异常状态,若是,利用改进的MASK

【技术实现步骤摘要】
一种音视频控制设备中图像跟踪方法


[0001]本专利技术涉及视频图像处理与检测识别
,特别是指一种音视频控制设备中图像跟踪方法。

技术介绍

[0002]图像追踪即在给定视频的第一帧的目标信息或者前几帧的目标信息,在后续帧序列中追踪目标,确定目标的运动轨迹。在视频分析中,有三个重要的步骤:目标检测、目标追踪和行为分析。目标追踪技术作为一个中间层任务,为许多需要每一帧目标的位置和尺度的高层应用服务。
[0003]目前存在的目标追踪算法也有很多种,其中Henriques提出的利用岭回归在输入特征空间中回归到一个二维高斯分布学习一个最优的核相关滤波器(Kernelized CorrelationFilters,KCF),通过密集采样使KCF成为当时效果最好的目标追踪算法,KCF利用循环矩阵在傅里叶域可以对角化的性质,大大降低了算法复杂度,很大程度上提高了算法的运行速度。相关滤波跟踪器的相关计算可以通过离散傅里叶变换转换为频域的点积计算。KCF通过循环移位矩阵完成密集取样,通过核函数和岭回归函数完成滤波器的训练,最后通过计算样本图像和滤波器相关性,选择相关性最高的区域为目标对象预测位置。在相关滤波追踪方面,很多算法都是在KCF基础上进行改进。针对不同问题,改进的方法也各不相同。KCF在保证具有较高追踪精度的同时,还具有较快的处理速度。KCF的算法流程如图2所示。KCF是以固定大小的模板框来处理对象的特征模板,所以在对象发生尺度变化的时候,大小不变的模板框无法精确地描述对象。而且KCF核化相关滤波器在物体发生急剧形变的情况下会很容易丢失目标,尤其是在遮挡的情况下,由于KCF滤波器的模板在每帧的预测后会进行更新,被遮挡的目标部分会同背景噪音混杂,导致滤波器的模板发生漂移。后续以错误的模板进行匹配的话,自然很难找到正确目标。KCF滤波器在长期跟踪过程中同样稳定性不够强,在线更新的滤波器模板容易由于错误特征的积累,模板逐渐失真。
[0004]而Mask-RCNN是由Faster-RCNN改进而来的,在Faster-RCNN对RoI Pooling做了改进并提出了RoI Align,这样改进后不再进行取整操作,而是用双线性插值来更精确地找到每个块对应的特征,使得为每个RoI取得的特征能够更好地对齐原图上的RoI区域。与此同时,增添mask branch预测K个种类的m*m二值掩膜输出,引入预测K个输出的机制,允许每个类都生成独立的掩膜,避免类间竞争。这样做解耦了掩膜和种类预测,提高了分割效果。Mask-RCNN算法虽然能识别目标轮廓,但对一张图片分割需要耗费很长时间,无法对视频目标进行实时追踪。

技术实现思路

[0005]针对上述
技术介绍
中存在的不足,本专利技术提出了一种音视频控制设备中图像跟踪方法,解决了KCF滤波器在长期跟踪过程中同样稳定性不够强,在线更新的滤波器模板容易由于错误特征的积累,模板逐渐失真,很难识别正确目标;以及Mask-RCNN算法中图片分割
耗时过长,无法对视频目标进行实时追踪的技术问题。
[0006]本专利技术的技术方案是这样实现的:
[0007]一种音视频控制设备中图像跟踪方法,其步骤如下:
[0008]步骤一:通过摄像头控制模块获取视频流,并由视频解码模块将视频流转化为Mat格式的序列帧图像;
[0009]步骤二:针对第一帧图像,选取候选区域,并初始化目标图像的位置和初始尺度;
[0010]步骤三:将下一帧图像作为当前帧图像,获取当前帧图像的搜索区域图,根据目标图像的位置分别提取搜索区域图的HOG特征和颜色直方图特征;
[0011]步骤四:根据搜索区域图的HOG特征和颜色直方图特征计算搜索区域图的响应图,并把搜索区域图的响应图作为预测目标位置区域;
[0012]步骤五:利用尺度滤波器提取预测目标位置区域的多尺度样本,并计算不同尺度样本的响应值,以最大的响应值对应的尺度作为预测尺度;
[0013]步骤六:设计异常值检测器,利用异常值检测器检测当前帧图像的特征响应图是否处于异常状态,若特征响应图异常,执行步骤七,否则,特征响应图正常,输出当前帧图像的目标的位置及尺度,返回步骤三;
[0014]步骤七:利用改进的MASK

RCNN对当前帧图像进行检测,得到目标的位置信息,返回步骤三。
[0015]优选地,所述根据搜索区域图的HOG特征和颜色直方图特征计算搜索区域图的响应图的方法为:
[0016]分别使用滤波器f
hog
和f
cn
计算得到HOG特征的响应图y
hog
和基于颜色直方图特征的响应图y
cn

[0017]根据HOG特征的响应图y
hog
计算搜索区域图的HOG特征对应的响应图置信度:
[0018][0019]其中,q
hog
为HOG特征对应的响应图置信度,max(y
hog
)为响应图y
hog
中的最大值,y
hog,r,c
为响应图y
hog
中的第r行第c列个响应点的值,n
hog
为响应图y
hog
中响应点的个数;
[0020]根据基于颜色直方图特征的响应图y
cn
计算搜索区域图的颜色直方图特征对应的响应图置信度:
[0021][0022]其中,q
cn
为基于颜色直方图特征对应的响应图置信度,max(y
cn
)为响应图y
cn
中的最大值,y
cn,r

,c

为响应图y
cn
中的第r

行第c

列个响应点的值,n
cn
为响应图y
cn
中响应点的个数;
[0023]计算搜索区域图的响应图:
[0024][0025]其中,y
merg
为融合后的搜索区域图的响应图,w
hog
为HOG特征的权重,w
cn
为基于颜色
直方图特征的权重,f
hog
(x)表示HOG的初始化核相关滤波器,f
cn
(x)表示CN的初始化核相关滤波器。
[0026]优选地,所述预测尺度的获得方法为:
[0027]采集预测目标位置区域的多尺度样本大小:
[0028][0029]其中,M表示目标在前一帧图像中的尺度的宽,N表示目标在前一帧图像中的尺度的高,c1表示尺度因子,S为多尺度的数量;
[0030]定义代价函数ε:
[0031][0032]其中,l表示维度,g表示尺度滤波器期望输出,h
l
表示第l维的相关滤波器,λ为正则系数,f
l
为输入样本的第l维的特征;
[0033]相关滤波器在频域上表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音视频控制设备中图像跟踪方法,其特征在于,其步骤如下:步骤一:通过摄像头控制模块获取视频流,并由视频解码模块将视频流转化为Mat格式的序列帧图像;步骤二:针对第一帧图像,选取候选区域,并初始化目标图像的位置和初始尺度;步骤三:将下一帧图像作为当前帧图像,获取当前帧图像的搜索区域图,根据目标图像的位置分别提取搜索区域图的HOG特征和颜色直方图特征;步骤四:根据搜索区域图的HOG特征和颜色直方图特征计算搜索区域图的响应图,并把搜索区域图的响应图作为预测目标位置区域;步骤五:利用尺度滤波器提取预测目标位置区域的多尺度样本,并计算不同尺度样本的响应值,以最大的响应值对应的尺度作为预测尺度;步骤六:设计异常值检测器,利用异常值检测器检测当前帧图像的特征响应图是否处于异常状态,若特征响应图异常,执行步骤七,否则,特征响应图正常,输出当前帧图像的目标的位置及尺度,返回步骤三;步骤七:利用改进的MASK

RCNN对当前帧图像进行检测,得到目标的位置信息,返回步骤三。2.根据权利要求1所述的音视频控制设备中图像跟踪方法,其特征在于,所述根据搜索区域图的HOG特征和颜色直方图特征计算搜索区域图的响应图的方法为:分别使用滤波器f
hog
和f
cn
计算得到HOG特征的响应图y
hog
和基于颜色直方图特征的响应图y
cn
;根据HOG特征的响应图y
hog
计算搜索区域图的HOG特征对应的响应图置信度:其中,q
hog
为HOG特征对应的响应图置信度,max(y
hog
)为响应图y
hog
中的最大值,y
hog,r,c
为响应图y
hog
中的第r行第c列个响应点的值,n
hog
为响应图y
hog
中响应点的个数;根据基于颜色直方图特征的响应图y
cn
计算搜索区域图的颜色直方图特征对应的响应图置信度:其中,q
cn
为基于颜色直方图特征对应的响应图置信度,max(y
cn
)为响应图y
cn
中的最大值,y
cn,r

,c

为响应图y
cn
中的第r

行第c

列个响应点的值,n
cn
为响应图y
cn
中响应点的个数;计算搜索区域图的响应图:其中,y
merg
为融合后的搜索区域图的响应图,w
hog
为HOG特征的权重,w
cn
为基于颜色直方图特征的权重,f
hog
(x)表示HOG的初始化核相关滤波器,f
cn
(x)表示CN的初始化核相关滤波器。3.根据权利要求1或2所述的音视频控制设备中图像跟踪方法,其特征在于,所述预测
尺度的获得方法为:采集预测目标位置区域的多尺度样本大小:其中,M表示目标在前一帧图像中的尺度的宽,N表示目标在前一帧图像中的尺度的高,c1表示尺度因子,S为多尺度的数量;定义代价函数ε:其中,l表示维度,g表示尺度滤波器期望输出,h
l
表示第l维的相关滤波器,λ为正则系数,f
l
为输入样本的第l维的特征;相关滤波器在频域上表示为:其中,H
l
表示频域上的相关滤波器,F
l
是频域上的输入特征,表示理想输出的频域共轭,表示逻辑运算符同或,F
k
表示k维的频域特征,表示k维的频域共轭特征;通过对相关滤波器的分子与分母进行在线更新以更新尺度相关滤波器:其中,A
t
为第t帧的尺度相关滤波器H
t
的分子,为第t帧的尺度相关滤波器H
t
的第l维的分子,B
t
为第t帧的尺度相关滤波器H
t
的分母,η为学习速率;利用尺度相关滤波器计算不同尺度样本的预测响应值:在频域补0的方式对响应值y
s
进行三角插值,将尺度响应值数量从S插值到S
interp
,以插值后的响应值最大的尺度为目标当前的预测尺度。4.根据权利要求1所述的音视频控制设备中图像跟踪方法,其特征在于,所述利用异常值检测器检测当前帧图像的特征响应图是否处于异常状态的方法为:抛弃前n0帧,将第n0+1帧到n1帧用于初始化异...

【专利技术属性】
技术研发人员:范文兵李中喜张璐璐孔德涵王现升
申请(专利权)人:中音讯谷科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1