一种基于卡尔曼滤波的视频标注方法及系统技术方案

技术编号：30428161 阅读：13 留言：0更新日期：2021-10-24 17:16

本发明专利技术公开了一种基于卡尔曼滤波的视频标注方法及系统，包括：对卡尔曼滤波器的参数进行初始化设置；手动确定待标注对象所在位置的起始框，并利用起始框的坐标对卡尔曼滤波器进行更新；利用卡尔曼滤波器预测下一帧中所述待标注对象所在位置的预测框；利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框；将所述待标注对象所在的位置预测框和所有的存在待标注对象的候选框进行匹配，确定最匹配的候选框，利用所述最匹配的候选框对所述待标注对象在当前帧的预测框进行更新，并根据更新后的预测框进行标注。本发明专利技术相比于传统的标注方式，极大的提高了视频标注效率，可以提高效率30％

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卡尔曼滤波的视频标注方法及系统

[0001]本专利技术涉及视频标注
，并且更具体地，涉及一种基于卡尔曼滤波的视频标注方法及系统。

技术介绍

[0002]在深度学习中，数据对于神经网络模型的预测结果起到了关键作用，数据就是神经网络学习的“知识”，通常需要大量的数据去训练神经网络才能看到明显的效果，数据标注是一件耗时耗力的事情，所以提升标注效率是一个关键点。
[0003]目前，在目标检测领域常用的数据标注软件有labelimg、cvat、标注精灵等。其中，labelimg和标注精灵只有基本的数据标注功能，cvat是一个比较全面的标注系统，支持视频标注，但是仍然有很多不足，比如不支持对常见物体进行预测、标注视频静态物体慢等，特别在遇到一幅图片中存在大量重复对象或者标注视频时，效率极低。
[0004]因此，需要一种能够快速准确地进行视频标注的方法。

技术实现思路

[0005]本专利技术提出一种基于卡尔曼滤波的视频标注方法及系统，以解决如何快速准确地进行视频标注的问题。
[0006]为了解决上述问题，根据本专利技术的一个方面，提供了一种基于卡尔曼滤波的视频标注方法，所述方法包括：
[0007]步骤1，对卡尔曼滤波器的参数进行初始化设置；
[0008]步骤2，根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新；
[0009]步骤3，利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框；
>[0010]步骤4，利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框；
[0011]步骤5，将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配，确定最匹配的候选框，并将所述最匹配的候选框作为所述待标注对象在当前帧图片中的目标框。
[0012]优选地，其中所述卡尔曼滤波器的参数，包括：卡尔曼滤波器在初始时刻的状态变量的最优估计卡尔曼滤波器在初始时刻的噪声协方差P0、卡尔曼滤波器的状态转移矩阵A和卡尔曼滤波器的噪声矩阵Q。
[0013]优选地，其中所述根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新，包括：
[0014]S21，计算k＝1时刻时第1帧图片的状态变量的最优估计和噪声协方差P1，以用
于k＝2时刻时第2帧图片的使用，包括：
[0015]S211，根据在第1帧图片上确定的待标注对象所在位置的起始框box1的信息得到k＝1时刻的观测输入值z1＝[u
z1
,v
z1
,s
z1
,r
z1
]；其中，u
z1
,v
z1
,s
z1
,r
z1
分别为box1的横坐标、纵坐标、面积和长宽比；
[0016]S212，将P0、A、Q代入式(1)、(2)，得出和P1‑
；
[0017]S213，将P1‑
、R、H、H
T
代入式(3)得出K1；
[0018]S214，将K1、z1、H代入式(4)得出
[0019]S215，将K1、H、I代入式(5)得出P1；
[0020][0021][0022][0023][0024][0025]其中，A为卡尔曼滤波器的状态转移矩阵，A的取值为：
[0026][0027]其中，Δt为间隔的时间或帧数；A
T
为A的转置矩阵；Q为卡尔曼滤波器的噪声矩阵；为卡尔曼滤波器在k
‑
1时刻的状态变量的最优估计；P
k
‑1为卡尔曼滤波器在k
‑
1时刻的噪声协方差，表示各个状态变量之间的相互影响，P
k
‑1为7行7列的矩阵；为卡尔曼滤波器在k时刻的噪声协方差的初步预测值；为卡尔曼滤波器在k时刻的状态变量的初步估计，取值为：
[0028][0029]其中，u
k
,v
k
,s
k
,r
k
分别为k时刻预测框中心位置的横坐标、纵坐标、面积和长宽比，分别为k时刻预测框横向、纵向和面积的变化速率，长宽比r
k
为定值；K
k
为k时刻的卡尔曼增益系数；为卡尔曼滤波器在k时刻的状态变量的最优估计；P
k
为卡尔曼滤波器在k时刻的噪声协方差的最优估计，用于下次迭代更新；为卡尔曼滤波器在k时刻的噪声协方差的初步预测值；z
k
为k时刻的观测输入值，z
k
＝[u
zk
,v
zk
,s
zk
,r
zk
]，u
zk
,v
zk
,s
zk
,r
zk
分别为k
时刻起始框中心位置的横坐标、纵坐标、面积和长宽比；H
T
为H的转置矩阵，H为观测函数；R为测量噪声，R＝1000*I，I为4阶的单位矩阵；H的取值为：
[0030][0031]S22，依次利用当前帧图片对应的状态变量的最优估计和噪声协方差计算得到下一帧图片对应的状态变量的最优估计和噪声协方差，直至完成k＝n时刻对卡尔曼滤波器参数的迭代更新，以用于预测所述第n+1帧图片中所述待标注对象出现的位置；其中，n为预设帧数。
[0032]优选地，其中所述利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框，包括：
[0033]取当前帧数为k＝n+1，将第n帧中的代入式(1)预测得到第n+1帧图片上所述待标注对象所在位置的预测框u
n+1
，v
n+1
，s
n+1
，r
n+1
分别为k＝n+1时刻时第n+1帧图片上所述待标注对象所在位置的预测框的横坐标、纵坐标、面积和长宽比。
[0034]优选地，其中所述利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框，包括：
[0035]输入阈值w至选择性搜索Selective Search算法，获取w个候选框，并将获取的w个候选框与上一帧图片中所述待标注对象所在位置的起始框box
n
进行遍历比对，以确定当前帧的图片中所有的存在所述待标注对象的候选框；其中，如果能找到满足预设条件的候选框，则所述候选框的数量即为该阈值w；否则，该阈值w自增1得到新阈值w+1，新阈值w+1继续在第n+1帧图片中进行遍历比对，直到找到满足预设条件的候选框为止，确定当前帧的图片中所有的存在所述待标注对象的候选框。
[0036]优选地，其中所述预设条件，包括：
[0037]IOU1＞K1ꢀꢀꢀꢀꢀꢀꢀ
(7)
[0038][0039]其中，对于任一个候选框，IOU1为候选框本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于卡尔曼滤波的视频标注方法，其特征在于，所述方法包括：步骤1，对卡尔曼滤波器的参数进行初始化设置；步骤2，根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新；步骤3，利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框；步骤4，利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框；步骤5，将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配，确定最匹配的候选框，并将所述最匹配的候选框作为所述待标注对象在当前帧图片中的目标框。2.根据权利要求1所述的方法，其特征在于，所述卡尔曼滤波器的参数，包括：卡尔曼滤波器在初始时刻的状态变量的最优估计卡尔曼滤波器在初始时刻的噪声协方差P0、卡尔曼滤波器的状态转移矩阵A和卡尔曼滤波器的噪声矩阵Q。3.根据权利要求1所述的方法，其特征在于，所述根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新，包括：S21，计算k＝1时刻时第1帧图片的状态变量的最优估计和噪声协方差P1，以用于k＝2时刻时第2帧图片的使用，包括：S211，根据在第1帧图片上确定的待标注对象所在位置的起始框box1的信息得到k＝1时刻的观测输入值z1＝[u
z1
,v
z1
,s
z1
,r
z1
]；其中，u
z1
,v
z1
,s
z1
,r
z1
分别为box1的横坐标、纵坐标、面积和长宽比；S212，将P0、A、Q代入式(1)、(2)，得出和P1‑
；S213，将P1‑
、R、H、H
T
代入式(3)得出K1；S214，将K1、z1、H代入式(4)得出S215，将K1、H、I代入式(5)得出P1；；；；；其中，A为卡尔曼滤波器的状态转移矩阵，A的取值为：
其中，Δt为间隔的时间或帧数；A
T
为A的转置矩阵；Q为卡尔曼滤波器的噪声矩阵；为卡尔曼滤波器在k
‑
1时刻的状态变量的最优估计；P
k
‑1为卡尔曼滤波器在k
‑
1时刻的噪声协方差，表示各个状态变量之间的相互影响，P
k
‑1为7行7列的矩阵；为卡尔曼滤波器在k时刻的噪声协方差的初步预测值；为卡尔曼滤波器在k时刻的状态变量的初步估计，取值为：其中，u
k
,v
k
,s
k
,r
k
分别为k时刻预测框中心位置的横坐标、纵坐标、面积和长宽比，分别为k时刻预测框横向、纵向和面积的变化速率，长宽比r
k
为定值；K
k
为k时刻的卡尔曼增益系数；为卡尔曼滤波器在k时刻的状态变量的最优估计；P
k
为卡尔曼滤波器在k时刻的噪声协方差的最优估计，用于下次迭代更新；为卡尔曼滤波器在k时刻的噪声协方差的初步预测值；z
k
为k时刻的观测输入值，z
k
＝[u
zk
,v
zk
,s
zk
,r
zk
]，u
zk
,v
zk
,s
zk
,r
zk
分别为k时刻起始框中心位置的横坐标、纵坐标、面积和长宽比；H
T
为H的转置矩阵，H为观测函数；R为测量噪声，R＝1000*I，I为4阶的单位矩阵；H的取值为：S22，依次利用当前帧图片对应的状态变量的最优估计和噪声协方差计算得到下一帧图片对应的状态变量的最优估计和噪声协方差，直至完成k＝n时刻对卡尔曼滤波器参数的迭代更新，以用于预测所述第n+1帧图片中所述待标注对象出现的位置；其中，n为预设帧数。4.根据权利要求1所述的方法，其特征在于，所述利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框，包括：取当前帧数为k＝n+1，将第n帧中的代入式(1)预测得到第n+1帧图片上所述待标注对象所在位置的预测框u
n+1
，v
n+1
，s
n+1
，r
n+1
分别为k＝n+1时刻时第n+1帧图片上所述待标注对象所在位置的预测框的横坐标、纵坐标、面积和长宽比。5.根据权利要求1所述的方法，其特征在于，所述利用选择性搜索算法查找当前帧的图
片中所有的存在所述待标注对象的候选框，包括：输入阈值w至选择性搜索Selective Search算法，获取w个候选框，并将获取的w个候选框与上一帧图片中所述待标注对象所在位置的起始框box
n
进行遍历比对，以确定当前帧的图片中所有的存在所述待标注对象的候选框；其中，如果能找到满足预设条件的候选框，则所述候选框的数量即为该阈值w；否则，该阈值w自增1得到新阈值w+1，新阈值w+1继续在第n+1帧图片中进行遍历比对，直到找到满足预设条件的候选框为止，确定当前帧的图片中所有的存在所述待标注对象的候选框。6.根据权利要求5所述的方法，其特征在于，所述预设条件，包括：IOU1＞K1ꢀꢀꢀꢀ
(7)其中，对于任一个候选框，IOU1为候选框与box
n
的交并比，S
1交
为候选框与box
n
交集的面积，S
1并
为候选框与box
n
并集的面积，K1为第一交并比阈值；其中，若候选框满足IOU1＞K1，则确定候选框满足要求。7.根据权利要求1所述的方法，其特征在于，所述将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配，确定最匹配的候选框，包括：计算所述待标注对象在当前帧图片所在的位置预测框和每个候选框的交并比；当仅存在一个候选框的交并比大于预设的第二交并比阈值时，选取该候选框为最匹配的候选框；当存在至少两个候选框的交并比大于预设的第二交并比阈值时，分别计算每个交并比大于预设的交并比阈值的候选框和所述待标注对象在当前帧图片所在的位置预测框的相似度，并选取最大相似度对应的候选框为最匹配的候选框。8.根据权利要求1所述的方法，其特征在于，所述方法还包括：利用所述待标注对象在当前帧图片中的目标框对所述卡尔曼滤波器进行更新，并返回步骤3重新计算，直至预测结果不满足预设的数据标注要求时，重新手动确定所述待标注对象所在位置的起始框，并使用重新手动确定的所述待标注对象所在位置的起始框按照预设的第三帧数阈值对所述卡尔曼滤波器进行更新，并返回步骤3重新计算，直至所有的帧被标注完成时停止。9.一种基于卡尔曼滤波的视频标注系统，其特征在于，所述系统包括：初始化单元，用...

【专利技术属性】
技术研发人员：党杨军，王鹏飞，崔树成，赵建明，侯永玲，
申请(专利权)人：航天信息山东科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人